BİLİM VE TEKNOLOJİ

Yapay zeka oluşturmak için gereken veriler buradan geliyor


Bulguları özel olarak paylaşıldı MIT Teknoloji İncelemesiendişe verici bir eğilim gösteriyor: Yapay zekanın veri uygulamaları, gücün büyük ölçüde birkaç baskın teknoloji şirketinin elinde yoğunlaşması riskini taşıyor.

Projenin bir parçası olan MIT'den araştırmacı Shayne Longpre, 2010'ların başında veri setlerinin çeşitli kaynaklardan geldiğini söylüyor.

Bu bilgiler yalnızca ansiklopedilerden ve internetten değil, aynı zamanda parlamento tutanakları, kazanç çağrıları ve hava durumu raporları gibi kaynaklardan da geliyordu. Longpre, o zamanlar yapay zeka veri setlerinin bireysel görevlere uyacak şekilde özel olarak seçildiğini ve farklı kaynaklardan toplandığını söylüyor.

Daha sonra, dil modellerinin temelini oluşturan mimari olan transformatörler 2017 yılında icat edildi ve yapay zeka sektörü, modeller ve veri kümeleri büyüdükçe performansın arttığını görmeye başladı. Günümüzde çoğu yapay zeka veri seti, internetteki materyallerin ayrım gözetmeksizin toplanmasıyla oluşturuluyor. 2018'den beri web, ses, görüntü ve video gibi tüm ortamlarda kullanılan veri kümeleri için baskın kaynak haline geldi ve alıntı veriler ile daha derlenmiş veri kümeleri arasında bir boşluk ortaya çıktı ve genişledi.

Longpre, “Temel model geliştirmede, yetenekler açısından verilerin ve webin ölçeğinden ve heterojenliğinden daha önemli hiçbir şey yok gibi görünüyor” diyor. Ölçek ihtiyacı, sentetik verilerin kullanımını da büyük ölçüde artırdı.

Geçtiğimiz birkaç yılda video ve görsel üretebilen çok modlu üretken yapay zeka modellerinin de yükselişine tanık olduk. Büyük dil modelleri gibi mümkün olduğunca fazla veriye ihtiyaç duyarlar ve bunun için en iyi kaynak YouTube olmuştur.

Video modellerinde, bu grafikte görebileceğiniz gibi, hem konuşma hem de görüntü veri kümelerine ait verilerin %70'inden fazlası tek bir kaynaktan gelir.

Bu, YouTube'un sahibi olan Google'ın ana şirketi Alphabet için bir nimet olabilir. Metin web üzerinde dağıtılır ve birçok farklı web sitesi ve platform tarafından kontrol edilirken, video verileri son derece tek bir platformda yoğunlaşmıştır.



Source link