Meta’nın yeni AI modelleri, 1.000’den fazla dilde konuşmayı tanıyabilir ve üretebilir

May 22, 2023

Dünyada yaklaşık 7.000 dil vardır, ancak mevcut konuşma tanıma modelleri bunların yalnızca yaklaşık 100’ünü kapsamlı bir şekilde kapsar. Bunun nedeni, bu tür modellerin İngilizce, İspanyolca ve Çince de dahil olmak üzere yalnızca az sayıda dil için mevcut olan büyük miktarda etiketlenmiş eğitim verisi gerektirmesidir.

Meta araştırmacıları, 2020 yılında şirket tarafından geliştirilen ve transkriptler gibi büyük miktarda etiketli veri gerektirmeden sesten konuşma kalıplarını öğrenebilen mevcut bir yapay zeka modelini yeniden eğiterek bu sorunun üstesinden geldi.

Onu iki yeni veri seti üzerinde eğittiler: biri Yeni Ahit İncilinin ses kayıtlarını ve internetten alınan ilgili metni içeren 1.107 dilde ve diğeri 3.809 dilde etiketlenmemiş Yeni Ahit ses kayıtlarını içeren. Ekip, ses kayıtlarını eşlik eden metinle hizalamak için tasarlanmış bir algoritmayı çalıştırmadan önce kalitesini artırmak için konuşma sesini ve metin verilerini işledi. Daha sonra bu işlemi, yeni hizalanan veriler üzerinde eğitilmiş ikinci bir algoritma ile tekrarladılar. Bu yöntemle araştırmacılar, algoritmayı yeni bir dili, beraberindeki metin olmadan bile daha kolay öğrenmeyi öğretebildiler.

Meta’da projede çalışan bir araştırma bilimcisi olan Michael Auli, “Bu modelin öğrendiklerini çok, çok az veriyle hızlı bir şekilde konuşma sistemleri oluşturmak için kullanabiliriz” diyor.

“İngilizce için çok sayıda iyi veri kümemiz var ve birkaç dil için buna sahibiz, ancak diyelim ki 1.000 kişi tarafından konuşulan diller için buna sahip değiliz.”

Araştırmacılar, modellerinin 1.000’den fazla dilde konuşabildiğini ancak 4.000’den fazlasını tanıdığını söylüyor.

Modelleri, OpenAI Whisper dahil olmak üzere rakip şirketlerin modelleriyle karşılaştırdılar ve 11 kat daha fazla dili kapsamasına rağmen, kendi modellerinin yarı yarıya hata oranına sahip olduğunu iddia ettiler.

Ancak ekip, modelin bazı kelimeleri veya cümleleri yanlış yazma riskiyle karşı karşıya olduğu konusunda uyarıyor ve bu da hatalı veya potansiyel olarak rahatsız edici etiketlere neden olabilir. Ayrıca konuşma tanıma modellerinin diğer modellere göre yalnızca %0,7 daha fazla olsa da daha fazla önyargılı kelime ürettiğini kabul ediyorlar.

Afrika dilleri için doğal dil işleme üzerine çalışan Masakhane’de araştırmacı olan ve projede yer almayan Chris Emezue, araştırmanın kapsamı etkileyici olsa da, AI modellerini eğitmek için dini metinlerin kullanılmasının tartışmalı olabileceğini söylüyor. .

“İncil’de pek çok önyargı ve yanlış beyan var” diyor.

Source link