İnce Memedler'e veri madenciliği ile bakmak

Veri madenciliği nedir? Veri madenciliği yaparak İnce Memed romanlarındaki üslup dönüşümü, 20. yüzyıl Türk edebiyatında ve çevirilerde gözlenen kelime uzunluklarının zaman içindeki değişimi saptanabilir mi?

11 Şubat 2021 17:00

Yazı üslubu ve değişimi edebiyat incelemelerinin önde gelen konularından biridir. Bir üçlemenin içinde yer alan bu ve takip eden iki yazıda 1955 ve 1987 yılları arasında yayımlanan, Yaşar Kemal’in 4 ciltten oluşan İnce Memed romanlarının (İM 1, ..., İM 4) zaman içindeki üslup değişiminin veri madenciliği yöntemleriyle nasıl bulunacağını, üslup değişimine ilişkin giz olarak nitelendirdiğim bulguların ne ifade edebileceğini anlatıyorum [1, 2]. Bu gözlemlerin Türk edebiyatı [3] ve Türkçenin değişimiyle [4] bağlantısını ve ne anlama gelebileceğini sayılarla vermeyi amaçlıyorum.

Bu üçleme, Bilgi Üniversitesi’nde 4 Kasım 2014 tarihinde yapılan Binbir Kültürün Elçisi Yaşar Kemal Sempozyumu’nda sunduğum konuşmanın bir yansımasıdır [5]. Okumakta olduğunuz birinci bölümünde önce İnce Memed’le elli yıl önceki ilk tanışmamın, yaşarken bana da büyük heyecan veren o zamanların öz Türkçe tutkusunun ve edebiyat dünyamızın kısa bir hikâyesi var. Bu öykülemenin İnce Memedler’in yazımı sırasındaki dünyayı ve bağlamı tanımlayabileceğini düşünüyorum. Anımsadığım zaman İM 2’nin ilk yayımlandığı yıl; İM 1’in yazılışından (1955) epey sonra, ama hiç değilse öteki iki bölümünün yazıldığı yıllara (1983, 1987) günümüzden daha yakın… Hikâyemin sonrasındaysa veri madenciliğinin ne olduğunu, Türkiye’de ilk kimin tarafından yapıldığını ve edebiyat eserleri incelenirken veri madenciliğinin nasıl yapıldığını anlatıyorum.

İnce Memedler'in yazıldığı zamanlar

1960 ve 1970’lerde Türkiye’de benim de paylaştığım bir sosyalizm umudu vardı. Bu umudumu yansıttığını anladığım İnce Memed’in birinci ve ikinci cildini dilinin akışına kapılarak hemen okuduğumu anımsıyorum. 1969 yılıydı. Romanları Ankara Kızılay’daki Büyük Sinema’nın olduğu binanın birinci katındaki, içtiği Bafra sigarasının dumanının arkasından ayrılamayan Erdal Öz’ün Sergi Kitabevi’nden aldığımı da anımsıyorum; Erdal Öz’ün kitapları kendi tasarladığı ve üzerini sosyalist sloganlarla bezediği ambalaj kâğıdıyla itinayla paketleyip bana verişini de… Ant Yayınları’nın bastığı kitapların kapaklarında Avni Arbaş’ın çizdiği, İnce Memed’in çocuksu eşkiyalığını aksettiren, mürekkep dağılmasını andıran bir İnce Memed deseni, arka kapaklarındaysa Yaşar Kemal’in müthiş keyifli bir gülüşü vardı. Lise bitirme sınavlarına giriyordum. Ayakları birbirine dolanarak, korkarak kaçan İnce Memed’in, okurken özdeşleştiğim o çocuğun çakırdikenli dünyası benim derslerden kaçış dünyam olmuştu.

İlk okuyuşumun bir yıl öncesinde, bir lise 2 öğrencisi olarak Milliyet gazetesine gönderdiğim Örneğin sözcüğü Türkçe midir? sorusunu TDK Genel Yazmanı Ömer Asım Aksoy yanıtlamıştı. O yıllarda yanıt da Türkçe olup olmadığı tartışılan bir kelimeydi. Varlık dergisinin 1968 Haziran Ataç 70 Yaşında sayısının da yansıttığı gibi [6], öz Türkçe ve dil devrimi heyecanı hâlâ sürüyordu. Yaşar Nabi (Nayır), editörlüğünü yaptığı Varlık yıllıklarının Sanat Hayatı adlı bölümünde, Sami N. Özerdim’in Dil Çalışmaları [7] başlıklı, öz Türkçenin yaygınlaşması konusundaki yazısına da her yıl yer veriyordu.

O dönemin zihnimdeki Türkiyesi sadece dil konusundaki yoğun tartışmalarıyla [8] değil, genel olarak daha aydınlık, daha entelektüel gözüküyor bana. Geçmişe bakarken bulduğum sayılarsa bu düşüncemi desteklemiyor: O yıllarda Türk edebiyatında yayımlanan roman ve hikâye kitaplarının sayısı çok az. Bulduğum sayılar şöyle [9, s. 56]: 1960 yılında 9 roman/10 hikâye, 1961: 11/4, 1962: 10/20, 1963: 6/11, 1964: 5/9, 1965: 4/15, 1966: 12/8. Bu sayılardan 1960-1966 seneleri arasındaki 7 yıllık zaman diliminde her yıl yaklaşık 8 roman, 11 hikâye kitabının yayımlandığını görüyoruz. Eurostat, World Bank’a göre Türkiye’nin nüfusu o sıralarda 33 milyon; şu anki nüfusuysa 82 milyon. Bu yaklaşık sayılardan nüfusa oranlayarak bugün için bir tahmin yapacak olursak, günümüzde bir yılda çıkan roman sayısı yaklaşık 20 (8 x 82/33), yani o yıllarla neredeyse aynı ve çok az. Anlaşılan şu ki, andığım göreceli aydınlık ve entelektüel atmosfer küçük bir çevre tarafından somutlanıyordu. Ancak bu sayıların bütün hikâyeyi gösterdiğine inanmıyorum: Bulduğum sayılar o zamanın bende bıraktığı gençlik dönemi büyüsünü değiştiremedi.

O yıllarda Nüvit Osmay’ın editörlüğünü yaptığı TÜBİTAK’ın Bilim ve Teknik Dergisi’nde elektronik beyinkullanılarak Van Gogh’un eserlerinin sahtelerinin nasıl ayırt edilebildiğini okuduğumu anımsıyorum. O sıralarda Türkçede bilgisayar kelimesi henüz üretilmemişti: Elektronik beyin birkaç eğitim (ODTÜ, İTÜ, Robert Kolej ve Hacettepe) ve devlet kuruluşunda (Karayolları, DSİ, Maliye Bakanlığı, OBİM ve İstatistik Enstitüsü) vardı. Dünya bilim literatüründe de veri madenciliği diye bir kavram yoktu. Şimdi veri madenciliğinin ne olduğuna birkaç sorunun eşliğinde bakalım.

Veri madenciliği nedir?

Günümüzde bir yapay us alanı olarak çok popüler olan veri madenciliği, bir veri topluluğu içindeki kayda değer olan, saklı, yani açıkça görünmeyen, tekrar eden yapıları bulmayı amaçlar. Örüntü olarak da nitelenen bu yapılar arasındaki, birisi olunca ötekinin de olması gibi ilişkileri arar. Bu yapıların ve ilişkilerin nedenlerini bulmaya çalışır. Tanımdaki kayda değer deyimi, bulunan yapı ve ilişkilerin gerçekten olduğunun istatistiksel yöntemlerle doğrulanmış olduğunu belirtir.

Farklı konularda kullanımı olan bir araştırma alanıdır. Uygulama yelpazesi “bu metnin yazarı kim?” sorusundan “borsada şu anda ne yapmalıyım?” sorusuna ve sayısal görüntülerde lezyonların bulunmasına kadar uzanmaktadır. Veri madenciliği uygulamaları günümüzde verilerin çeşitliliğiyle, sayıca fazlalığıyla ve hızlı ve otomatik bir şekilde külfetsiz olarak üretiliyor olmaları nedeniyle, öncelikle oluşan büyük veri ortamlarında önem ve yaygınlık kazanmıştır. Veri madenciliği, istatistik ve makine ile öğrenme gibi araştırma alanları, çözmeyi hedefledikleri problemler ve kullandıkları yöntemler açısından birbirlerine benzemekte ve örtüşmektedir.

Veri madenciliği çalışmalarının önde gelen problemleri sınıflandırma, sıra dışı verilerin yakalanması, veri ilişkilerinin saptanması ve zaman içinde akan verilerde yeni eğilimlerin bulunması ve izlenmesi olarak özetlenebilir. Bizim buradaki konumuz, yazılı metinler kullanılarak yapılan, İngilizcede stylometry veya style analysis olarak bilinen veri madenciliği problemidir: Hedefi üslubun ve metnin çeşitli özelliklerinin sayısal yöntemlerle saptanmasıdır. Yazarların metnin içinde farkında olmadan bıraktıkları, parmak izi olarak da adlandırılan örüntüleri bularak çeşitli problemleri çözmeyi amaçlar. Bu problemlerden bazıları: İncelenen metnin yazarının ve yazılış zamanının bulunması, yazarın cinsiyetinin ve yaşının saptanması, bir çevirinin aslına olan benzerliğinin ölçülmesi, bir metnin intihal olma durumunun irdelenmesi ve üslupla yazınsal başarının ilişkilendirilmesi şeklinde özetlenebilir. Yazıda anlatacaklarımın teknik ayrıntıları ve ilgili konulardaki yayınlar şu çalışmada bulunabilir [12].

Türkiye’de veri madenciliğini ilk kim yapmıştır?

Türkçede “matematik analiz metotlarının dilbilgisine tatbiki” ve stil analiziyle ilgili ilk çalışma, oğlu Hüseyin İnan’ın yerinde tanımlamasıyla bir Rönesans adamı kimliği taşıyan, merak tutkunu Mustafa İnan’ın 12 Haziran 1963 tarihli “Dil ve Matematik” başlıklı konferansında sunduğu araştırmadır [10]. Konusu “[K]elime teşkilinde ‘hece malzemesi’ ne oranda ekonomik olarak kullanılmaktadır?” problemidir. Çalışmada, kulağa hitap eden kelimelerin daha rahat anlaşılabilmesi için, doğal dillerde idealden daha fazla olan hece çeşidinin rasyonelliği incelenmiştir. Oğuz Atay, Bir Bilim Adamının Romanı–Mustafa İnan  adlı yapıtında bu çalışmadan ayrıntılı bir biçimde bahsetmektedir [11, s. 154-155] (Teori ve Pratik başlıklı 13. bölüm).

Edebiyat metinleri incelenirken veri madenciliği nasıl yapılır?

Bu kısımda edebiyatla ilgili çalışmalarda en çok ilgi çeken metin sınıflandırma problemine bakacağız. Bu türden olan veri madenciliği işlemlerinde, metin önce eşit sayıda kelime içeren, blok olarak adlandırılan pasajlara bölünmektedir. Bloklar yeterli sayıda ve büyüklükte olmalı, işlemler sırasında kullanılacak olan tanımlar hedeflenen problemin çözümüne uygun seçilmelidir. İncelenen metinlerin bloklara ayrılması, anlatımın akışı içinde olabilecek farklılıkları yansıtmayı ve gözlem sayısını çoğaltarak istatistiksel testlerle elde edilecek olan doğrulamaların daha güvenilir olmasını sağlamayı amaçlar. Konumuz olan İnce Memedler için yapılan veri madenciliğinde metin blokları öznitelik olarak adlandırılan, aşağıdaki listede verilen özelliklerle tanımlanmış ve bu farklı betimlemeler birbirinden bağımsız olarak kullanılmışlardır. Her bir özniteliğin farklı değerlerinin kaç kez geçtiği hesaplanmış ve her bir öznitelik için o bloğa karşılık gelen, vektör olarak adlandırılan, betimsel bir sayı dizisi üretilmiştir. Bu amaçla:

Cümlelerin kelime sayısı olarak uzunluklarının,
Kelime kullanma istatistiğine göre saptanan en sık geçen kelimelerin,
Kelimelerin hece uzunluklarının,
Kelime türlerinin,
Kelimelerin harf sayısı olarak uzunluklarının ve
Metin sözlüğündeki farklı kelimelerin uzunluklarının

kaçar kez geçtiği saptanmıştır. Blok içinde kaç kelime olacağı, hangi kelimelerin en sık geçen kelimeler olarak kullanılacağı gibi seçimler ön deneyler gerektirebilir. Öznitelikler konusunda çok sayıda farklı seçeneğin olduğunu da belirtmeliyim. Anlamlı sonuçlar genellikle çeşitli yöntem ve veri tanımlarının kullanıldığı bir deneme ve yanılma süreci sonrasında elde edilir.

Örnek metin olarak İM 2’den bir pasajın ilk 5 kelimesini bir cümle olarak alalım (26. bölümün başlangıcı):

“Memed yavaş yavaş kendine geliyor.”

  • Bu cümlenin uzunluğu 5 kelimedir.
  • Önceden saptanmış en çok geçen kelimeler arasında “kendine” ve “yavaş” kelimelerinin olduğunu varsayalım. Bu örnekte “kendine” ve “yavaş” kelimelerinin metin içindeki geçiş sayısı sırasıyla 1 ve 2 olarak gözlenmektedir.
  • Hece sayısını inceleyecek olursak, 2 hece uzunluğundaki kelime sayısı 3 (yavaş, yavaş, Memed), 3 hece uzunluğunda olan kelime sayısı 2 (kendine, geliyor) olarak gözlenmektedir.
  • Kelime türleriyse, “Memed: ad”, “yavaş: sıfat”, “kendine: zamir” ve “geliyor: yüklem” şeklindedir. Kelime türlerinde sıfat 2 kelimede (2 kez geçen yavaş kelimesi) gözlenmiştir ve öteki kelime türleriyse birer kez geçmektedir.
  • Kelime uzunluğuna bakıldığında, metinde 5 harf uzunluğunda 3 kelime (yavaş, yavaş, Memed), 7 harf uzunluğunda 2 kelime (kendine, geliyor) olduğu görülmektedir. Ortalama kelime uzunluğu 5,8 harftir.
  • Farklı kelime uzunluğu için metnin kelimelerini tekrar etmeden içeren sözcüklerin uzunluğuna bakılır. Örnek metin için oluşan sözlükte “Memed yavaş kendine geliyor” kelimeleri bulunmaktadır; 5 harf uzunluğunda 2, 7 harf uzunluğunda 2 kelimesi vardır. Tekrar eden kelimeler çıkartıldığında, ortalama farklı kelime uzunluğu 6,0 harftir.

Öznitelik vektörü kavramını somutlaştırmak için hece sayılarıyla ilgili bir örneğe bakalım [10, s. 16]. Mustafa İnan 1.000 kelimeden oluşan bir blok için 1 ila 6 hece içeren kelimelerin sayılarına karşılık gelen vektörü şöyle vermiştir: <188, 378, 270, 121, 36, 6>. Bu sayılar 188 kelimenin tek heceli, 378 kelimenin çift heceli ..., 6 kelimeninse 6 heceli olduğunu göstermektedir. Vektörde geçen sayıların toplamı (188 + 378 + ... + 6) 999 olduğuna göre, altıdan fazla hece içeren kelime sayısı binde birdir.

Veri madenciliğinde kullanılan yöntemler nelerdir?

Veri madenciliğinde, çözümlenmesi amaçlanan problemler saptanıp verileri tanımlayacak uygun öznitelikler seçildikten sonra etkin bir şekilde kullanılabilecek çok sayıda yöntem bulunmaktadır [12]. Bu yöntemler denetimsiz ve denetimli olarak gruplanabilir.

Denetimsiz yöntemlerde, ipucu olabilecek ön bir bilgi kullanmadan saklı olan örüntülerin bulunması amaçlanır. Birbirine benzeyen verileri içeren kümelerin oluşturulması, benzer üsluplu yazar grupları vb. bu türün en çok bilinen problemlerinden biridir. İlgili algoritmaların geliştirilmesinde, bir sepetin içindeki elmaları bir bir alıp büyüklüğüne göre gruplara ayırmaya çalışan bir insanın yapacağına benzeyen algoritmalar kullanılır.

Denetimli yaklaşımlardaysa, eldeki veride bulunması amaçlanan örüntülerin veya sınıfların sisteme tanıtıldığı eğitim süreci vardır. Bu türden yaklaşımlar içinse, işe yeni başlayan deneyimsiz bir emlakçının, tecrübeli bir meslektaşı tarafından yeterli sayıda ve yeterli betimleyici özellikte emlak gösterilerek eğitilmesinden sonra işe başlaması benzetmesi yapılabilir. İnce Memedler’de eğitim sürecinde kullanılmamış olan rastgele bir bloğun kaçıncı romana ait olduğunun saptanması da buna örnek olarak verilebilir. Sınıflandırma dışında çözümlenmesi amaçlanan önemli problemlerden biri de, bu üçleme yazının ikinci bölümünde birlikte göreceğimiz, bilinen durumlar için olan sayısal gözlemlere bakarak bilinmeyen durumlar için olası sayısal gözlemlerin saptanmasıdır.

Yazı dizisinin izleyen bölümünde İnce Memed romanlarındaki üslup değişiminin veri madenciliği yöntemleriyle saptanmasını veriyor, ardından İnce Memedler'in yanı sıra 20. yüzyıl Türk edebiyatında [3] ve çevirilerde [4] gözlenen kelimelerin zaman içinde uzamasını anlatıyorum. Ardından Türkçede zaman içinde kelime köklerinin kısalması, kelimelerdeki ek sayısının artması ve kelime dağarcığının daralmasının [4] İnce Memedler'de de olup olmadığı sorusuyla ilgileniyorum.

 

KAYNAKLAR

[1] Patton, Jon M. ve Fazlı Can, (2004), A Detailed Stylometric Investigation of the İnce MemedTetralogy, Technical Report #MiamiU-CSA-04-001, Miami University, Oxford, OH

[2] Patton, Jon M. ve Fazlı Can, (2004), A Stylometric Analysis of Yaşar Kemal’s İnce MemedTetralogy”, Computers and the Humanities, 38(4): 457-467.

[3] Can, Fazlı ve Jon M. Patton, (2010), Change of Word Characteristics in 20th Century Turkish Literature: A Statistical Analysis, Journal of Quantitative Linguistics, 17(3): 67-90.

[4] Altıntaş, Kemal, Fazlı Can ve Jon M. Patton, (2007), Language Change Quantification Using Time-Separated Parallel Translations”, Literary & Linguistic Computing, 22(4): 375-393.

[5] Can, Fazlı, (2014), İnce Memedlerin Sayılarında Gizlenenler, Binbir Kültürün Elçisi Yaşar Kemal Sempozyumu

[6] Dizdaroğlu, Hikmet, (1968), “Ataç, İnanç Adamı”, Varlık, 719: 3.

[7] Özerdim, Sami N, (1966), 1966’da Dil Çalışmaları”, Varlık Yıllığı 1967, Ed. Yaşar Nabi. İstanbul: Varlık Yayınları, 97-104.

[8] Nabi, Yaşar, (1968), Dil Kavgası”, Varlık, 713: 3

[9] Alangu, Tahir, (1966), 1966’da Roman ve Hikâyemiz”, Varlık Yıllığı 1967, Ed. Yaşar Nabi. İstanbul: Varlık Yayınları, 52-84.

[10] İnan, Mustafa, (1987), Dil ve Matematik”, Prof. Dr. Mustafa İnan: Konferansları, Makaleleri ve Konuşmaları, İstanbul: İTÜ, 13-18.

[11] Atay, Oğuz, (1975), Bir Bilim Adamının Romanı-Mustafa İnan, Ankara: Bilgi Yayınevi.

[12] Çalışkan, Sevil, Fazlı Can, (2018), “Türkçe Metinler Üzerine Yapılan Sayısal Üslup Araştırmalarını İnceleyen ve Benim Adım Kırmızı Çevirilerinin Aslına Olan Sadakatini Ölçen Bir Çalışma”, Türk Kütüphaneciliği, 32(4): 251-286.