BİLİM VE TEKNOLOJİ

Google’ın yeni AI’sı bir şarkı parçasını duyabilir ve ardından çalmaya devam edebilir


Yeni bir AI sistemi, birkaç saniyelik sesle istendikten sonra kulağa doğal gelen konuşma ve müzik oluşturabilir.

Google araştırmacıları tarafından geliştirilen AudioLM, orijinal kayıttan neredeyse ayırt edilemeyecek şekilde, piyano müziği veya konuşan insanlar gibi karmaşık sesler de dahil olmak üzere, komut isteminin stiline uyan ses üretir. Teknik, ses üretmek için AI eğitimi sürecini hızlandırma konusunda umut vaat ediyor ve sonunda videolara eşlik edecek otomatik olarak müzik oluşturmak için kullanılabilir.

(Örneklerin tamamını buradan dinleyebilirsiniz.)

AI tarafından oluşturulan ses yaygındır: Alexa gibi ev asistanlarındaki sesler doğal dil işlemeyi kullanır. OpenAI’nin Jukebox’ı gibi AI müzik sistemleri şimdiden etkileyici sonuçlar üretti, ancak mevcut tekniklerin çoğu, çok fazla zaman ve insan emeği gerektiren, transkripsiyonlar hazırlamak ve metin tabanlı eğitim verilerini etiketlemek için insanlara ihtiyaç duyuyor. Örneğin Jukebox, şarkı sözleri oluşturmak için metin tabanlı verileri kullanır.

Geçen ay hakemli olmayan bir makalede açıklanan AudioLM farklıdır: transkripsiyon veya etiketleme gerektirmez. Bunun yerine, programa ses veritabanları beslenir ve ses dosyalarını çok fazla bilgi kaybetmeden “belirteçler” adı verilen ses parçacıklarına sıkıştırmak için makine öğrenimi kullanılır. Bu tokenleştirilmiş eğitim verileri daha sonra sesin kalıplarını öğrenmek için doğal dil işlemeyi kullanan bir makine öğrenme modeline beslenir.

Sesi oluşturmak için, bir sonraki adımı tahmin eden AudioLM’ye birkaç saniyelik ses beslenir. Süreç, GPT-3 gibi dil modellerinin hangi cümlelerin ve kelimelerin tipik olarak birbirini takip ettiğini tahmin etme biçimine benzer.

Ekibin yayınladığı ses klipleri kulağa oldukça doğal geliyor. Özellikle, AudioLM kullanılarak oluşturulan piyano müziği, kaotik görünme eğiliminde olan mevcut AI teknikleri kullanılarak oluşturulan piyano müziğinden daha akıcı geliyor.

Carnegie Mellon Üniversitesi’nde bilgisayar tarafından oluşturulan müzikleri araştıran Roger Dannenberg, AudioLM’nin önceki müzik oluşturma programlarından çok daha iyi ses kalitesine sahip olduğunu söylüyor. Özellikle, AudioLM’nin insan yapımı müziğin doğasında bulunan bazı yinelenen kalıpları yeniden yaratmada şaşırtıcı derecede iyi olduğunu söylüyor. Gerçekçi piyano müziği üretmek için AudioLM, piyano tuşlarına basıldığında her notada bulunan ince titreşimlerin çoğunu yakalamak zorundadır. Müziğin de belli bir süre boyunca ritimlerini ve armonilerini sürdürmesi gerekir.

Dannenberg, “Bu gerçekten etkileyici, çünkü kısmen bazı yapı türlerini birden fazla düzeyde öğrendiklerini gösteriyor” diyor.

AudioLM yalnızca müzikle sınırlı değildir. Cümleleri konuşan insanların kayıtlarından oluşan bir kitaplık üzerinde eğitildiği için, sistem aynı zamanda orijinal konuşmacının aksan ve kadansında devam eden konuşmalar da üretebilir – ancak bu noktada bu cümleler herhangi bir anlam ifade etmeyen sıralı olmayan cümleler gibi görünebilir. algı. AudioLM, ne tür ses parçacıklarının birlikte sıklıkla meydana geldiğini öğrenmek için eğitilmiştir ve cümleler oluşturmak için işlemi tersine kullanır. Ayrıca, konuşulan dillerin doğasında bulunan ancak kolayca metne çevrilemeyen duraklamaları ve ünlemleri öğrenebilme avantajına sahiptir.

Northeastern Üniversitesi’nde bilgi ve konuşma bilimi üzerine araştırma yapan Rupal Patel, ses üretmek için AI kullanan önceki çalışmaların bu nüansları ancak eğitim verilerinde açık bir şekilde açıklanmış olmaları halinde yakalayabileceğini söylüyor. Buna karşılık, AudioLM bu özellikleri girdi verilerinden otomatik olarak öğrenir ve bu da gerçekçi etkiye katkıda bulunur.

Neil Zeghidour, “Dilsel bilgi olarak adlandırabileceğimiz, telaffuz ettiğiniz kelimelerde olmayan pek çok şey var, ancak bu, belirli bir niyeti veya belirli bir duyguyu ifade etmek için şeyleri söyleme şeklinize dayanan başka bir iletişim yolu” diyor. AudioLM’nin ortak yaratıcısı. Örneğin, birisi şaka olduğunu belirtmek için bir şey söyledikten sonra gülebilir. “Konuşmayı doğal kılan her şey” diyor.

Sonunda, AI tarafından oluşturulan müzik, videolar ve slayt gösterileri için daha doğal görünen arka plan müzikleri sağlamak için kullanılabilir. Patel, kulağa daha doğal gelen konuşma oluşturma teknolojisinin internet erişilebilirlik araçlarını ve sağlık hizmetlerinde çalışan botları iyileştirmeye yardımcı olabileceğini söylüyor. Ekip ayrıca, tropikal bir yağmur ormanının kaydını taklit eden farklı enstrümanlar veya sesler içeren bir grup gibi daha sofistike sesler yaratmayı umuyor.

Ancak Patel, teknolojinin etik sonuçlarının dikkate alınması gerektiğini söylüyor. Özellikle, eğitim verisi olarak kullanılan klipleri üreten müzisyenlerin son üründen atıf mı yoksa telif ücreti mi alacağını belirlemek önemlidir; bu, metinden görüntüye yapay zekalarla ortaya çıkan bir sorundur. Gerçek şeyden ayırt edilemeyen AI tarafından oluşturulan konuşma, yanlış bilgilerin daha kolay yayılmasını sağlayacak kadar inandırıcı hale gelebilir.

Makalede, araştırmacılar, örneğin, doğal sesleri AudioLM kullanılarak üretilen seslerden ayırt etmek için teknikler geliştirerek, bu sorunları hafifletmek için zaten düşündüklerini ve çalıştıklarını yazıyorlar. Patel ayrıca, doğal sesten ayırt edilmelerini kolaylaştırmak için AI tarafından oluşturulan ürünlere ses filigranları eklemeyi de önerdi.



Source link