AI dil programlarını eğitmek için verimiz bitebilir

November 24, 2022 admin-jump2top

Sorun şu ki, bir AI araştırma ve tahmin kuruluşu olan Epoch’tan araştırmacılar tarafından hazırlanan bir makaleye göre, dil modellerini eğitmek için tipik olarak kullanılan veri türleri yakın gelecekte -2026 gibi erken bir tarihte- kullanılabilir. Sorun, araştırmacıların daha büyük yeteneklere sahip daha güçlü modeller oluşturdukça, onları eğitmek için daha fazla metin bulmaları gerektiği gerçeğinden kaynaklanmaktadır. Epoch’un çalışmasında yer almayan yapay zeka şirketi Hugging Face’te araştırmacı olan Teven Le Scao, büyük dil modeli araştırmacılarının bu tür verilerin tükeneceğinden giderek daha fazla endişe duyduklarını söylüyor.

Sorun kısmen dil yapay zeka araştırmacılarının modelleri eğitmek için kullandıkları verileri iki kategoriye ayırmasından kaynaklanıyor: yüksek kalite ve düşük kalite. Epoch’ta kadrolu araştırmacı ve makalenin baş yazarı olan Pablo Villalobos, iki kategori arasındaki çizginin belirsiz olabileceğini, ancak ilkinden gelen metinlerin daha iyi yazılmış olarak görüldüğünü ve genellikle profesyonel yazarlar tarafından üretildiğini söylüyor.

Düşük kaliteli kategorilerden gelen veriler, sosyal medya gönderileri gibi metinlerden veya 4chan gibi web sitelerindeki yorumlardan oluşur ve yüksek kaliteli olarak kabul edilen verilerden çok daha fazladır. Araştırmacılar genellikle modelleri yalnızca yüksek kaliteli kategoriye giren verileri kullanarak eğitirler çünkü bu, modellerin yeniden üretmesini istedikleri dil türüdür. Bu yaklaşım, GPT-3 gibi büyük dil modelleri için bazı etkileyici sonuçlara yol açmıştır.

Veri kümesi kalitesinde uzmanlaşmış Güney Kaliforniya Üniversitesi makine öğrenimi profesörü Swabha Swayamdipta’ya göre, bu veri kısıtlamalarının üstesinden gelmenin bir yolu, “düşük” ve “yüksek” kalite olarak tanımlananları yeniden değerlendirmek olacaktır. Swayamdipta, veri kıtlığı yapay zeka araştırmacılarını eğitim sürecine daha çeşitli veri kümelerini dahil etmeye zorlarsa, bunun dil modelleri için “net olumlu” olacağını söylüyor.

Araştırmacılar, eğitim dili modelleri için kullanılan verilerin ömrünü uzatmanın yollarını da bulabilir. Şu anda, performans ve maliyet kısıtlamaları nedeniyle büyük dil modelleri aynı veriler üzerinde yalnızca bir kez eğitiliyor. Ancak Swayamdipta, aynı verileri kullanarak bir modeli birkaç kez eğitmenin mümkün olabileceğini söylüyor.

Bazı araştırmacılar, zaten dil modelleri söz konusu olduğunda, büyüğün daha iyi olmayabileceğine inanıyor. Stanford Üniversitesi’nde bir bilgisayar bilimi profesörü olan Percy Liang, modelleri daha verimli hale getirmenin, modellerin boyutlarını artırmaktan ziyade yeteneklerini geliştirebileceğine dair kanıtlar olduğunu söylüyor.
“Daha yüksek kaliteli verilerle eğitilen daha küçük modellerin, daha düşük kaliteli verilerle eğitilen daha büyük modellerden nasıl daha iyi performans gösterebileceğini gördük” diye açıklıyor.

Source link