Yapay zekâ sonrası eser sahipliği

“Yazarın, bir metni yazan kişinin kim olduğu, üslup analizi yapan bilgisayarlar yoluyla giderek daha rahat cevaplayabildiğimiz bir soru oldu. Ama bu yöntem yazarın 'rolü'yle de ilgili yeni soruları da beraberinde getirdi.”

06 Ekim 2022 20:30

 

Sahtekârlıktan korkuyorsanız yazar tanıma işinize yarayacaktır: Örneğin, Shakespeare’in oyun yazmak için yeterli eğitime sahip olmadığını veya Charlotte Brontë’nin Jane Eyre’ını aslında kardeşi Bramwell’ın yazdığını düşünüyorsanız. Mesela “Elena Ferrante”nin Napoli Romanları gibi yazarın bilinmediği ve atıfta bulunmak istediğiniz ya da kimi suçlamayacağınızı bilmek istediğiniz durumlarda da yardımınıza koşacaktır bu araçlar. Aşağıda tartıştığım örnekte, Romantik dönem şair-felsefeci-eleştirmeni Samuel Taylor Coleridge 1816 tarihli Christabel; Kubla Khan, a Vision; The Pains of Sleep adlı cildini Edinburgh Review’da kimin yerden yere vurduğunu bilmeyi çok istemişti. Coleridge’in eleştirinin yazarının kim olduğuna dair fikri olmakla beraber, son iki yüz yılda bu kişiyi kesinkes teşhis etmek mümkün olmamıştır.

Yazarın, bir metni yazan kişinin kim olduğu, üslup analizi yapan bilgisayarlar yoluyla giderek daha rahat cevaplayabildiğimiz bir soru oldu. Ama bu yöntem yazarın “rolü”yle de ilgili yeni soruları da beraberinde getirdi. Metinden anlam çıkaranın yazar mı, okuyucu mu olduğu değil, bir şey yazmanın hepten anlamlı olup olmadığı üzerine sorular bunlar.

Yazar ve hatta tarih, ideoloji veya eleştiri gelenekleri hakkında hiçbir şey bilmeyen algoritmik yaklaşımlar söz konusu olduğunda, yazarlık metinler denizinden bir müşterek örüntüler kümesi olarak tüm gücüyle ortaya çıkar. Yani yapay zekâ veya YZ bir yazarı insan olarak değil, bir yapıtlar bütününün ayırt edici özelliklerinin benzeri olarak başarılı bir şekilde “tanır”. Algoritmik okuyucu metinler arasındaki örüntüleri bulmak ve neyi kimin yazdığına dair bir çıkarıma varmak için sıkça kullanılan sözcükler ve noktalama işaretleri gibi bir metinsel özellikler bütününü kullanır.

Süreç şöyle işliyor: Tek bir yazarın nispeten tutarlı bir metinler kümesinde bakıldığında, yazara özgü dilsel tercihler parmak izi niteliği taşır. Bu parmak izini tanımak için kaynağını bulmak istediğinizle karşılaştırmak için hayli büyük ve benzer bir metin kümesine ihtiyacınız olacaktır. Elinizdeki metnin de parmak izi örüntüleri taşıyacak uzunlukta olması gerekir.[1] Anonim bir metni kimin yazdığını bulmak veya onu gerçekten kimin yazdığını doğrulamak için üsluptan yararlanan yöntemler olası çıkarımlara varmak için sadece ve sadece metni esas alırlar.[2]

“Üslup analizi”nde “üslup” bir paltonun kesiminden çok içindeki bedene benzer. Bu tür bir üslup sıklıkla kendi başına çok bir şey ifade etmeyen şahsa özgü ve kişisel alışkanlıklardır ve bölge ile eğitim kadar bilinçli bir estetik seçimi yansıtır. Örneğin, 2007 yılında Journal of Machine Learning Research’te yayımlanan bir araştırma, Oscar Wilde’ı yakasındaki karanfilden değil, “tek bir yazarın pek çok yazısında tutarlı bir şekilde kullandığı belirleyici özelliklerinden tanır”. Bu işlevsel kelimelerin sıklığı, sentaks yapıları, cümle ve kelime uzunluğu, sentaktik ve ortografik özellikleri kapsar.[3] Buna bir nevi sihir diyebiliriz, ama dilbilim ve istatistiğe dayalı bir sihir.

Bir okuyucu ve edebiyat eleştirmeni olarak yazarlık kavramını kendi perspektifimden ele alıp, üslup analizinin bize yazar ve metin arasındaki ilişkiyle ilgili neler öğretebileceğini sormak için bilgisayarların yazarı nasıl tanıdığına dair bir örneği vurgulayacağım.


Harper Lee

Çoğu okuyucu, gayet anlaşılır bir nedenle, yazarı bir metni yazan kişi olarak kabul eder. Harper Lee’nin Go Set a Watchman’ı (Tespih Ağacının Gölgesinde) çıktığında onu diğer herkes gibi, aynı sebeple okumak istemiştim: Harper Lee yazmıştı. Kitabın etrafından dönen tartışma bir kişi olarak Lee’ye odaklanmış ve onun sonraki yıllarda rıza göstermesi ve sonradan Bülbülü Öldürmek olacak elyazmasını kapsamlı bir şekilde elden geçirmesiyle ilgilenmişti.

Go Set a Watchman elyazmasının bulunuşu, yayımlanmasının hikâyesi açısından çok önemliydi. Wall Street Journal’dan Tonja B. Carter’ın Lee’nin metnini bulduğunu (sonradan ihtilaflı hale gelmiştir) yazması bunu doğrulama girişimlerine de kapıyı açmıştı. Carter “İzleyen aylarda Nelle yönetimindeki uzmanlar kiralık kasadaki tüm belgeleri inceleyip doğrulamak üzere davet edildi. Zarftan çıkan ‘Bülbül’ elyazmasına ve Lord & Taylor’daki kiralık kasada bulunan esrarengiz sayfalara dair tüm belirsizliklere cevap verilecek” yazmıştı.[4] Kitabın Lee’ye ait olması çok büyük önem taşıyordu.

Carter’ın Sherlock’vari ipuçları, yukarıda değinilen teknik yazar tanıma yöntemlerininkine benzer yazarın kimliği sorularına cevaplar sunmayı amaçlıyor. Ancak bu tür bir yazar tanıma işi, istatistiksel bir yaklaşım olarak, şu soruya kesin bir cevap vermekten ziyade göreceli olasılıklar sunar: “O belgeyi bu kişi mi yazdı?” ve hatta “O belgeyi şu kişilerden hangisinin yazma olasılığı daha yüksek?”

Ortadaki sorunun iki formülasyonu da Duquesne Üniversitesi Matematik ve Bilişim Bilgisayar Bilimi Fakültesi’nden Patrick Juola’ya ait. Yazarı belirlemek için kullandığı protokol de daktilo tuşlarını, kâğıdı, paleografiyi, oraya buraya dökülmüş kahve lekelerinin asiditesini veya bir edebiyat dedektifinin kullanacağı, yazarı fiziksel olarak metnin üretildiği yere bağlayacak diğer ipuçlarını incelemekten farklıydı.[5] Parmak izi metinde yatıyordu.

İtiraf: Go Set a Watchman’ı okumadım, çünkü meşru olmadığına dair şüphelerimden kurtulamamıştım. Meğer bir romanın asıl önemi, yazarının niyetlerini açığa çıkarma gücünden kaynaklanıyormuş bana göre, kendi kendimi çok şaşırtmıştım. Yazmak istediklerinin ideal bir ifadesi mi (gözden geçirilmemiş elyazması) olmalıydı roman, yoksa okumamı istediği şey mi (gözden geçirilmiş bir kitap)?

Simone Murray’in dijital edebiyat dünyasına dönük çalışması kendimi yazara yakın hissetme arzumun eski günlere bir dönüş değil, güncel eser sahipliği nosyonlarıyla tutarlı olduğunu gösteriyor. Murray yaratıcı çalışmanın bugün daha kapsamlı bir “yazar-okuyucu iletişiminin” sadece “çekirdeğini” oluşturduğuna dikkat çekiyor. Edebiyat kültürünü bozduğu düşünülen dijital platformların –e-posta, web siteleri, bloglar, Facebook, Twitter, Instagram– birbirini izlemesinin aslında uzun zamandır var olan okuyucunun “yazar ve okuyucu arasında mahrem zihinden zihne bir görüş alışverişi”ne duyduğu arzunun bir parçası olduğunu iddia ediyor.[6]Başka birinin Lee’nin ilk romanını yazmayı tamamladığına veya elyazmasında önemli ölçüde ve izinsiz değişiklikler yaptığına dair ani ve güçlü kuşkum, yalnız ve yalnızca onun eserini okumak isteyişimden kaynaklanıyordu.

Bu his metinlere dönük mutat mesleki ilgime hayli ters düşüyor. Edebiyat eleştirmenleri için yazar en iyi eleştirel bir kavram olarak veya bir metnin nasıl yazıldığı, dolanıma sokulduğu ve okunduğu gibi önemli soruları sorarak anlaşılabilir. Metinler söz konusu eser için yargılanabilecek veya para karşılığı çalıştırılacak belli bir yaratıcıyla giderek daha fazla ilişkilendikçe, yazarlık rolü de değişime uğradı.

Merve Emre ve Len Gutkin 2016’da Los Angeles Review of Books’ta yayımlanan “The Elenic Question” [Elena Meselesi] adlı makalelerinde romancı Elena Ferrante’nin kimliği esrarı etrafında dönen tartışmaların eleştirel açıdan üretimsel olduğunu öne sürdüler: Homeros’un kimliği etrafında dönen paralel tartışmalarda “sözel-sabit ifadelerden oluşan kompozisyon (sözlü şiirin doğaçlama yoluyla ortaya çıkma süreci) ve metinsel alımlama (doğaçlanan şiirin yazı yoluyla nasıl dolanıma girdiği)” ile ilgili sorular ortaya çıkmıştı.

Emre 2018 Ekimi’nde New York Times Magazine’deki yazısında Ferrante’nin anonimlik pratiğinin yazarın belirgin egolarını “çoğaltıp muğlaklaştırabilecek” bir “ifade stratejisi” olduğunu savunacaktı. “Bu egolarNapoli Romanları’nın yazarı olan Elena, anlatıcı Elena ve romanlarını yorumlayan Elena’ydı.” Burada yazar gerçek bir insan olduğu kadar bir dizi kritik sorular kümesidir. Bir makineyi “gerçek bir insanın” metinsel izlerini tanıyacak şekilde eğitirseniz, eser sahipliğiyle ilgili soruların cevabı ne olur?

Coleridge’in Christabel’inin Edinburgh Review’daki acımasız eleştirisi, her ne kadar eleştirinin yazarı belirsizliğini korusa da bu soruya bazı enteresan cevaplar sunabilir. 2015 yılında Francesca Benatti (Açık Üniversite, Dijital Beşeri Bilimler) ve Justin Tonra (İrlanda Ulusal Üniversitesi, Galway İngilizce Bölümü) bu eleştirinin önemli bir İrlandalı yazar olan Thomas Moore tarafından yazılıp yazılmadığını ortaya çıkarmak üzere çalışmaya başladılar. Eleştiri yazarının gerçek kimliğinin akademik önemine dikkat çekmek için yazarların “tartışmaya konu, evvelki sekiz önemli ismi” makalenin başında verdiğini söylemek isterim.[7]

Makalenin yazarları yazarın kimliğini tespit etmek için sunulan kanıtların çoğunun dış kaynaklı olduğunu, oysa kendi yaklaşımlarının “hem eleştiri metni hem de eser sahipliği için araştırmacıların en muhtemel adaylar olarak gördüğü diğer yazarların metinlerinden elde edilen iç kaynaklı dilbilimsel kanıtlara” dayandığını belirtmişlerdi. Kesin bir çıkarıma varmaktan ziyade bir olasılıklar kümesi sundular ve analiz sürecin aldıkları bir dizi kararla bu sonuçların nasıl elde edildiğini vurguladılar.

Araştırmacılar aynı dönemde Edinburgh Review’da edebi eleştirileri yayımlanan diğer yazarların denemelerini karşılaştırırken sadece güvenilir bir analiz için yeterli olduğunu düşündükleri metinlerin yazarlarını esas almışlardı: “Bu her yazar için en az iki makaleye bölünmüş 10 bin kelimeydi.” Ölçütleri karşılayan yazarlar John Allen, Henry Brougham, William Hazlitt, Francis Jeffrey, Sir James Mackintosh, Thomas Moore ve Sir Francis Palgrave’di.

Benatti ve Tonra’nın çalışmasında kullanılan makaleler Google Books ve Edinburgh Review’un arşiv kopyalarından elde edildi. İlk olarak imgelerin harf olarak tanınmasını sağlamaları gerekiyordu. Ardından Coleridge’den yapılan uzun alıntıları temizlediler. 19. yüzyıl edebiyat eleştirilerinde bolca alıntı yapılması çok yaygın olduğu için Coleridge’in şiirlerinden yapılan uzunca girişler gizli eleştirmenin düzyazı sinyallerini karıştıracaktı (Üslup analizi konu veya süslemeler –buna paltonun kesimi diyelim– gibi yüzeysel farkları tek bir yazarın metinleri arasındaki tutarlılık gösteren gizli örüntüler –buna da paltonun içindeki beden diyelim– lehine görmezden geleceği için, iki kişinin bir paltoya girmesi işleri karıştıracaktı.)[8]

Benatti ve Tonra daha sonra yazarları gruplara ayırmak için beş farklı yöntemi devreye soktu.[9]Yöntemlerden ikisi metinleri birbirinden ayıran örüntüleri arıyordu. Analizin denetlenmemiş bu versiyonunda stylo metinler arasındaki özellik kümelerinde benzerlik ve farklılıkları belirlemeye çalışıyordu.

Yöntemlerden üçü denetlenmişti; araştırmacılar bir bilinen metinler kümesini kullanarak bir sınıflandırıcıyı eğitip bir bilinmeyen metinler kümesini kimin yazdığını tahmin etmesini istemişlerdi. Sonuçlardan büyük bir değişkenlik olmasının önüne geçmek için de metinler eğitimde kullanılan kümenin içine defalarca ve rastgele sokulup çıkarılmıştı. Bu yöntemlerin en efektif olanı[10] her makaleyi yüz kez test etmişti; Christabel eleştirisinin yazarını %63 oranında Francis Jeffrey, %28 oranında Moore, %8 oranında Henry Bougham ve %1 oranında Macintosh olarak belirledi. Bu sonuç yetersiz olmakla beraber bir fikir veriyordu.

Yazarlar algoritmanın Christabel eleştirisine dair tahminlerinin (makaleyi farklı yazarlara atama oranı) Hazlitt’in “Jeffrey’nin editoryal müdahalesinin hayli fazla olduğu” başka bir eleştirisinin eser sahipliğine dönük tahminleri olduğunu da belirtmişlerdir. Yani algoritma burada editoryal müdahale dolayısıyla şaşırmış olabilir. Stilometrik analizin belli bir bireyin üslubunu tanımaya uygun bir işlem olduğunu biliyoruz. Bu noktada algoritmanın önceden kabul edilen yazar olan Brougham yerine, bu münferit eleştiriyi tekrar tekrar Jeffrey’ye atfetmesini tartışmak yerinde olabilir.

Ama belki de Benatti ve Tonra’nın üslup analizi, editoryal çalışmanın bir nevi yazarlığa dönüştüğü bir dönüm noktasını da ortaya çıkarıyor olabilir. Yazarlar, Jeffrey’nin Christabel’in eleştiri metnine yoğun bir editoryal müdahalede bulunduğu olasılığı üzerine düşündüklerinde şöyle bir noktaya da parmak basıyorlar: “Jeffrey’nin Hazlitt’in en az iki makalesinde çok sayıda kısaltma yapıp kelime değiştirdiği ve bu müdahaleyi diğer Edinburgh Review yazarlarına da yaptığı biliniyor. Bu müdahalenin kapsamı göz önüne alındığında,Edinburgh Review’daki tüm eleştirilerin iki yazarı olduğu öne sürülebilir.”

Eser sahipliğine yapay zekâ perspektifiyle baktığımızda, bir metnin tarihsel olarak nasıl şekil aldığı ve çoğu zaman birden fazla kişinin işin içine girdiği gerçeğini hesaba katmak gerekiyor. Edebiyat eleştirmenlerinin sıklıkla yazarı bir kişiden çok bir kavram veya nosyon (Foucault’nun yazar işlevi gibi) olarak görmeyi daha verimli bulduğunu söylemiştim. Ancak algoritmik açıdan “kişi” olarak yazarı odağa almak, algoritmanın metinlerin gerçek insanlar tarafından nasıl yaratıldığı –üretildiği, yazıldığı, yeniden yazıldığı ve editoryal müdahaleden geçtiği– üzerine düşünmemizi gerektirmesinden dolayı pek çok kritik soruyu da gündeme getiriyor.

Belki de Christabel eleştirisini gizemli bir yazar yazmıştır ya da eleştirinin kendisi okuduklarımızın, en iyileri de dahil olmak üzere, içine işlemiş işbirliği veya editoryal süreçlere bir kanıt teşkil ediyordur.

Go Set a Watchman’ın elyazması tarihî bir eser gibi görünüyor ve öyle de. Ama aynı zamanda bir metin. Computational Stylistics Group’tan Jan Rybicki ve Maciej Eder romanı seçilmiş Güney Amerikalı yazarlara ait bir roman kümesiyle karşılaştırdılar.[11] Sonuç olarak Harper Lee’nin Bülbülü Öldürmek ve Go Set a Watchman’ı yazdığına dair “çok güçlü” stilometrik kanıt buldular, ancak yazılım çok önemli bir sahnedeki bazı pasajları Capote’ye mal etmişti.

Yazarlar bu sonucun o bölümü Capote’nin yazdığı anlamına gelmediği, ancak “burada kapsamlı bir metin editörlüğü ve esinlenmenin de dahil olduğu bir stilometrik sinyaller karışımıyla karşı karşıya olduğumuzu” belirtiyor. Bir metni bir bilgisayara vermek suretiyle gerçekleştirilen ve insan unsurunu tümüyle ortadan kaldıran bu edebiyat analizine kayış, bizi bir kez daha edebiyatın her daim sosyal bir üretim olduğu gerçeğiyle yüzleştiriyor.

The Atlantic yazarı Rachel Donadio, Elena Ferrante’nin “işbirliği” yapmış olma ihtimalini ele alıyor. İki kişi için bir mahlas bulma fikri eser sahipliğine dönük eleştirel düşüncelerden biraz farklı bir soruyu ortaya çıkarıyor. Bir yaratıcının sinyalini deşifre etmek için geliştirilmiş bir araç düşünüldüğünde, eser sahipliğine dair en temel soru olan “Bu belgeyi o kişi mi yazdı?” sorusu, aynı zamanda bunun ne kadar da cevaplanamaz bir soru olduğunu ortaya çıkarıyor.

Çeviren: AYKUT ŞENGÖZER

  

NOTLAR:


[1] Bu yazıdan çıkarılabilecek ilk sonuç şudur: Eğer dünyaya binlerce argüman yazısı kazandırmış biriyseniz ve güçlü birini anonim bir şekilde açık etmek istiyorsanız, bu suçlayıcı yazıyı sizin için yazmasını dişçi kuzeninizden isteyebilirsiniz. Birinin üslubunun parmak izlerini bulanıklaştırmak için sayısal bir reçete hazırlama çalışmaları da devam ediyor (bunun gibi). Ama ben arkamda bıraktığım kâğıt izlerine dikkat ederek dişçiye başvururdum!

[2] Maciej Eder, Jan Rybicki ve Mike Kestemont tarafından geliştirilen stylo, sayısal metin analizlerine yönelik açık kaynaklı ve kullanımı kolay bir R paketi. Buradaki giriş bölümünde alanın tarihçesi ve kapsamına dair genel bir bakış ve sayısal üslup analizinin nasıl çalıştığına dair detaylı bir açıklama yer almaktadır. “Sayısal yazar tanımanın gerçek dünya uygulamalarının değeri dolayısıyla bilim alanında giderek daha fazla dikkat çektiğini, örneğin intihal tespiti, taciz mesajlarının yazarının ortaya çıkarılması ve hatta terörle mücadele araştırmalarında bombalı mektupların kaynağının bulunmasında yardımcı olmasının önemini” vurguluyorlar.

[3] Moshe Koppel, Jonathan Schlerve Elisheva Bonchek-Dokow, “Measuring Differentiability: Unmasking Pseudonymous Authors,” Journal of Machine Learning Research, 8 (Haziran 2007). “İmza niteliğinde bir unsurun” veya dikkat çeken bir özelliğin tek bir metne işaret ederek bir yazarın metinleri arasında yaygın olarak varlık gösteren üslup unsurlarını gölgelemesi mümkündür. Öğrenme algoritması, en belirgin nitelikleri tekrar tekrar ortadan kaldırarak bir metnin yazarını bir bilinmeyen yazarlar kümesinden ayırır.

[4] Tonja B. Carter, “How I Found the Harper Lee Manuscript,” Wall Street Journal, 12 Temmuz 2015.

[5] Patrick Juola, “The Rowling Case: A Proposed Standard Analytic Protocol for Authorship Questions,” Digital Scholarship in the Humanities, c. 30, ek 1, 2015.

[6] Simone Murray, The Digital Literary Sphere: Reading, Writing, and Selling Books in the Internet Era (Johns Hopkins University Press, 2018).

[7] Francesca Benatti ve Justin Tonra, “English Bards and Unknown Reviewers: A Stylometric Analysis of Thomas Moore and the Christabel Review,” Breac, c. 7 Ekim 2015.

[8] stylo birden fazla yazarın kaleme aldığı çalışmalar için “rolling delta” adlı bir fonksiyona sahip. Bu özellik yazarı metindeki kesitlerden belirlemeye yarıyor. Buradaki metafora gönderme yapacak olursak, insanların paltoyu sırayla giyip giymediğini tespit etmeye çalışıyor.

[9] Yazarlar bu analiz için stylo’yu kullanmıştı.

[10] Başvurulan denetlenmiş yöntemlerden Destek Vektör Makineleri (SVM) ayrı ayrı makaleler üzerinde gerçekleştirilen 1.600 testte %74 ile en yüksek tanıma doğruluğu oranına ulaşmıştı.

[11] Maciej Eder ve Jan Rybicki, “Go Set a Watchman while We Kill the Mockingbird in Cold Blood,”Computational Stylistics Group.

 

Bu yazı ilkin 25 Haziran 2019’da “Autorship After AI" başlığıyla Public Books’ta yayınlanmıştır. Yazarın ve Public Books’un özel izniyle Türkçeye çevrilmiştir. Kopyalanamaz, kullanılamaz.