Büyük dil modelleri dudak uçuklatan şeyler yapabilir. Ama kimse bunun nedenini tam olarak bilmiyor.
OpenAI'nin süper hizalama ekibinde bir yıl boyunca geçici görev yapan Harvard Üniversitesi'nden bilgisayar bilimcisi Boaz Barak, “Bunlar heyecan verici zamanlar” diyor. “Alandaki pek çok kişi bunu sıklıkla 20. yüzyılın başındaki fizikle karşılaştırıyor. Tamamen anlamadığımız birçok deneysel sonuç var ve çoğu zaman bir deney yaptığınızda bu sizi şaşırtıyor.”
Eski kod, yeni numaralar
Sürprizlerin çoğu, modellerin kendilerine nasıl yapacakları gösterilmeyen şeyleri yapmayı nasıl öğrenebilecekleriyle ilgilidir. Genelleme olarak bilinen bu, makine öğrenimindeki en temel fikirlerden biri ve en büyük bilmecesidir. Modeller, belirli bir dizi örnekle eğitim alarak yüzleri tespit etme, cümleleri tercüme etme, yayalardan kaçınma gibi bir görevi yapmayı öğrenir. Ancak daha önce görmedikleri örneklerle o işi yapmayı öğrenerek genelleme yapabilirler. Her nasılsa, modeller sadece gördükleri kalıpları ezberlemekle kalmıyor, aynı zamanda bu kalıpları yeni vakalara uygulamalarına izin veren kurallar da üretiyorlar. Ve bazen, grokking'de olduğu gibi, genelleme, beklemediğimiz zamanlarda gerçekleşir.
Özellikle OpenAI'nin GPT-4'ü ve Google DeepMind'ın Gemini'si gibi büyük dil modelleri şaşırtıcı bir genelleme yeteneğine sahiptir. Barak şöyle diyor: “Sihirli olan, modelin İngilizce matematik problemlerini öğrenip daha sonra İngilizce yeni matematik problemlerine genelleme yapması değil, modelin İngilizce matematik problemlerini öğrenebilmesi, ardından bazı Fransız literatürünü görebilmesi ve bundan genelleme yapabilmesidir” Fransızca matematik problemlerini çözmek. Bu, istatistiklerin size söyleyebileceklerinin ötesinde bir şey.”
Zhou, birkaç yıl önce yapay zeka üzerine çalışmaya başladığında öğretmenlerinin nedene değil de nasıla odaklandığını fark etti. “Bu modelleri şu şekilde eğitiyorsunuz ve ardından sonuç çıkıyor” gibiydi. “Ancak bu sürecin neden bu muhteşem şeyleri yapabilecek modellere yol açtığı açık değildi.” Daha fazlasını öğrenmek istedi ancak kendisine iyi yanıtların olmadığı söylendi: “Benim varsayımım, bilim adamlarının ne yaptıklarını bildikleri yönündeydi. Mesela teorileri alıyorlar ve sonra modelleri oluşturuyorlardı. Durum hiç de öyle değildi.”
Son 10 yılı aşkın süredir derin öğrenmedeki hızlı ilerlemeler, anlamaktan ziyade deneme yanılma yoluyla gerçekleşti. Araştırmacılar başkaları için işe yarayanları kopyaladılar ve kendilerine ait yenilikler üzerinde çalıştılar. Artık modellere eklenebilecek birçok farklı malzeme ve bunları kullanmak için tariflerle dolu, giderek büyüyen bir yemek kitabı var. Belkin, “İnsanlar şunu, şu şeyi, tüm bu numaraları deniyor” diyor. “Bazıları önemli. Bazıları muhtemelen değil.
“İşe yarıyor, bu harika. Bu şeylerin ne kadar güçlü olduğu karşısında aklımız uçuyor” diyor. Ve yine de tüm başarılarına rağmen tarifler kimyadan çok simyaya benziyor: “Gece yarısı bazı malzemeleri karıştırdıktan sonra bazı büyüleri bulduk” diyor.
Aşırı uyum gösterme
Sorun şu ki, büyük dil modelleri çağında yapay zeka ders kitabı istatistiklerine meydan okuyor gibi görünüyor. Günümüzün en güçlü modelleri çok geniştir ve bir trilyona kadar parametre içerir (bir modelde eğitim sırasında ayarlanan değerler). Ancak istatistikler, modeller büyüdükçe önce performansın artması, ardından daha da kötüleşmesi gerektiğini söylüyor. Bunun nedeni aşırı uyum denilen bir şeydir.
Bir model bir veri kümesi üzerinde eğitildiğinde, bu verileri bir kalıba sığdırmaya çalışır. Bir grafik üzerinde çizilen bir grup veri noktasını hayal edin. Verilere uyan bir model, bu grafikte noktalardan geçen bir çizgi olarak temsil edilebilir. Bir modeli eğitme süreci, onun eğitim verilerine (halihazırda grafikte bulunan noktalar) uyan ve aynı zamanda yeni verilere (yeni noktalar) uyan bir çizgi bulmasını sağlamak olarak düşünülebilir.