28 Temmuz 2024

Çooook büyük bir dil modeli

Llama 3.1'i bence en ayrıcalıklı kılan şey, şu an açık kaynak olarak paylaşılan en büyük yapay zekâ modeli olması. Bunun elbette pek çok avantajı var; bu alandaki gelişmeleri kesinlikle hızlandıracak çünkü bu model sayesinde geliştiriciler pek çok süreci atlayabilecek

Yapay zekâ alanındaki ilerlemeler aslında yeni değil, uzun zamandır var. Ancak Kasım 2022'de "herkesin" erişimine açık bir şekilde sunulan, Generative Pretrained Transformer (GPT) (Üretken Önceden Eğitilmiş Dönüştürücü) kullanılarak eğitilen bir Large Language Model (Büyük Dil Modeli) olan ChatGPT, hem bu alandaki gelişmelere yönelen dikkati arttırdı hem de bu gelişmeleri hızlandıran bir etki yarattı. Bu yazıda, bu alandaki en son gelişme olan, eğer başka bir gelişme olmazsa, büyük bir teknoloji şirketinin yeni dil modeli Llama 3.1 hakkında konuşmak istiyorum. Ancak yazının devamına geçmeden önce bazı terimleri bilmekte fayda var.

Büyük dil modelleri, geniş veri kümeleri üzerinde eğitilerek dilin kurallarını ve kalıplarını öğrenen ve bu bilgiyi çeşitli görevlerde kullanan yapay zekâ modelleridir. Bu tanımdaki "büyük" terimi, hem modelin boyutunu hem de eğitildiği veri kümesinin büyüklüğünü ifade eder. Bu modeller, metin üretme, metin tahmini, çeviri, soru-cevap sistemleri gibi çeşitli görevlerde kullanılır.

Her ne kadar "büyük" ifadesi, modellerin eğitimi için kullanılan verinin boyutunu ifade etse de, pratikte büyük dil modeli alanında yaşanan "büyük" sermayelerin rekabetini de yansıtıyor. Reklam olmaması açısından isim veremediğim, ancak Elon Musk ve Mark Zuckerberg gibi isimlerin şirketlerinin yarıştığı, tabir yerindeyse "oyun alanları" halini alan bir gerçeklik var. Bu başka bir yazının konusu olsun ve biz bu yarışın "şimdilik" iyi taraflarına odaklanalım diyerek Pollyannavari bir tavır içinde, gerekli tanımları yaptıktan sonra Llama 3.1 modelinden bahsedelim.

Llama 3.1, tıpkı diğer büyük dil modelleri gibi geniş veri kümeleri üzerinde eğitilerek dilin kurallarını ve kalıplarını öğrenen bir yapay zekâ modeli. Bu model, metin tahmini, çeviri, soru-cevap sistemleri gibi çeşitli görevlerde kullanılıyor ve farklı dillerde metinleri anlama ve üretme yeteneğine sahip.

Algoritmik olarak, Llama 3.1, önceki versiyonlarına ve orijinal Transformer makalesine oldukça yakın, bu da o zamandan beri ne kadar az şeyin değiştiğini gösteriyor. Ancak bu modelde, eğitim istikrarsızlığı endişeleri nedeniyle, modelin uzmanlarına ayrılarak daha hızlı sonuçlar elde etmeyi amaçlayan "mixture-of-experts" mimarilerinden uzak durulmuş. Bunun yerine, daha hızlı çıkarım için kuantize edilmiş bir versiyon yayınlamışlar.

Llama 3.1'in en dikkat çekici özelliklerinden biri, modelin eğitiminde kullanılan verilerin büyük bir kısmının sentetik (yapay olarak üretilmiş) veri olması. Sentetik veriler, modelin karmaşık problemleri çözme yeteneklerini geliştirmek için kullanılmış ve bu yöntemle modelin akıl yürütme, kodlama ve uyum sağlama (talimat izleme ve modelin yanıt vermemesi gereken durumları anlama) yeteneklerini arttırmak amaçlanmış.

Llama 3.1, multimodal yeteneklere de sahip. Bu, modelin sadece metin değil, aynı zamanda görüntü, video ve ses gibi farklı veri türlerini de işleyebildiği anlamına geliyor. Ancak, Llama 3.1'in multimodal yetenekleri, metin tabanlı yeteneklere daha fazla ağırlık veriyor. Model, metin tabanlı bir dil modeli olarak eğitiliyor ve ardından görüntü, video ve ses bileşenlerini bağlayarak bu yetenekleri kazanıyor. Bu bileşenler, modelin bağlamını zenginleştirmek için kullanılıyor.

Bu modeli önceki versiyonlarına kıyasla farklı kılan şey ise, daha büyük bir veri kümesi üzerinde eğitilmiş ve daha fazla parametreye sahip olması. Böylece modelin daha doğru ve doğal yanıtlar üretme olasılığı artıyor. Ancak bu, uzun ve milyonlarca dolara mal olan bir süreç. Modelin eğitimi 54 gün sürmüş.

Llama 3.1'in üç farklı versiyonu duyuruldu: 8B, 70B ve 405B. Buradaki B ifadesi "Billion" yani milyar anlamına geliyor. Bu sayılar, modellerin sahip olduğu parametre sayısını ifade ediyor. Yani, bu modelin en büyük versiyonu tam 405 milyar parametreye sahip. Parametreler, modelin öğrenme sürecinde ayarladığı değerlerdir ve modelin doğruluğunu ve yeteneklerini belirler. Daha fazla parametre, modelin daha karmaşık dil yapılarını öğrenmesini sağlar. Llama 3.1, aynı zamanda 128K token'lık bir bağlam penceresine sahiptir. Token, dil modellerinin metni anlamak ve işlemek için kullandığı birimlerdir ve daha büyük bir bağlam penceresi, modelin daha uzun metinleri anlamasına olanak tanır.

405 milyar parametre büyüklüğünün kapasitesi ve potansiyelini anlatmak için Llama 3.1'in 70 milyar parametreli modelinin performansına bakmak yeterli. Llama 3.1'in 70 milyar parametreli versiyonu bile birçok görevde "kutsal üçlü" olarak adlandırılan Claude 3.5 Sonnet, GPT-4 ve Gemini 1.5 gibi modellerle karşılaştırıldığında, benzer performans göstermiş. Büyük model ise belirli kriterlerde bu üçlüyü geçmiş durumda.

Llama 3.1'i bence en ayrıcalıklı kılan şey, şu an açık kaynak olarak paylaşılan en büyük yapay zekâ modeli olması. Bunun elbette pek çok avantajı var; bu alandaki gelişmeleri kesinlikle hızlandıracak çünkü bu model sayesinde geliştiriciler pek çok süreci atlayabilecek. Ancak avantajlar olduğu kadar dezavantajları da var ve bu kararın bir milyarder tarafından duyurulması, bana dezavantajlarının daha fazla olabileceğini düşündürüyor. Hele ki "büyük" sermayelerin "büyük" modellerinin "büyük" bir yarış içinde olduğunu da göz önünde bulundurunca.

Bu yazıda amacım aslında bir modeli övmek yerine mevcut gelişmeleri özetlemekti. Sonuç olarak, büyük dil modellerindeki ve dolayısıyla yapay zekâdaki gelişmeler her gün hızlanarak devam ediyor ve bu gelişmeler hayatımıza olumlu pek çok anlamda da yansıyor. Ancak bu alanın büyük bir kapital yarışı haline gelmesi, gelecek adına düşünmemiz gereken pek çok soru ve endişeyi de akıllarımıza getiriyor. En azından benim için. Ama bu, bir süredir devam eden ve uzun süre devam edebilecek bir tartışma konusu. O yüzden bu yazıyı okuyan alan uzmanları, yazının konusuyla ilgili olumlu ve olumsuz fikirlerini benimle paylaşırlarsa çok sevinirim. Belki böylece faydalı çıktılar oluşturabilecek tartışmalar yürütebiliriz.

Referanslar:

https://ai.meta.com/blog/meta-llama-3-1/

https://ai.meta.com/research/publications/the-llama-3-herd-of-models/

https://medium.com/@ignacio.de.gregorio.noblejas/heres-all-you-need-to-know-on-llama-3-1-open-source-s-new-king-c9a4ae5f89a2

Ozancan Özdemir kimdir?

Ozancan Özdemir, lisans ve yüksek lisans derecelerini ODTÜ İstatistik Bölümü'nden aldı. Yüksek lisans döneminde aynı zamanda Anadolu Üniversitesi yerel yönetimler bölümünden mezun oldu.

Bir süre ODTÜ İstatistik Bölümü'nde araştırma görevlisi olarak çalışan Özdemir, şu günlerde Groningen Üniversitesi Bernoulli Enstitüsü'nde finans ve yapay zekâ alanındaki doktora çalışmalarını sürdürüyor.

Pandemi döneminde bir grup öğrenciyle birlikte gönüllü bir oluşum olan VeriPie adlı güncel veri gazetesini kurdu.

Araştırma alanları yapay öğrenme ve derin öğrenme uygulamaları, zaman serisi analizi ve veri görselleştirme olan Ozancan Özdemir, ayrıca yerel yönetimler ve veriye dayalı politika geliştirme konularında da çeşitli platformlarda yazılar yazmaktadır.

YAZARIN TÜM YAZILARI

Ozancan Özdemir Llama 3.1

Yazarın Diğer Yazıları

Yapay zekâdan araştırmacı olur mu?

Bugüne kadar bilim insanlarına yardımcı olan yapay zekâ modelleri, yalnızca beyin fırtınası, kod yazma veya tahmin görevleri gibi sürecin sınırlı kısımlarını üstlenebiliyordu. Ancak Tokyo merkezli Sakana AI ve çeşitlik akademik işbirlikleri tarafından geliştirilen ve AI Scientist (Yapay zekâ Bilim İnsanı) adlı yeni bir araç, bu sınırlamaları aşarak tüm bilimsel süreci bağımsız bir şekilde yürütebilme yeteneğine sahip

Üniversite mezarlığı

1960'ta 7 üniversitesi olan Türkiye, 2024 yılı itibarıyla 208 üniversiteye sahip, devasa bir üniversite mezarlığını andırıyor. Üniversite mezarlığı tabirinin ağır bir tabir olduğunun farkındayım, ancak fikirlerimi en iyi yansıtan tabirin bu olduğunu düşünüyorum. Peki neden?

Yapay zekâ Maymun Çiçeği hastalığı teşhisinde kullanılabilir mi?

MPXV-CNN modelinin doğruluk oranı yüzde 91, yani model, MPOX vakalarını büyük bir doğrulukla tespit edebiliyor. Ayrıca, modelin özgüllüğü de yüzde 89.8 olarak belirlendi; bu da modelin yanlış pozitif sonuçlar verme olasılığının düşük olduğunu gösteriyor

Ozancan Özdemir