Meta, metin istemlerine dayalı olarak video oluşturan bir yapay zekayı ortaya çıkarıyor

September 29, 2022

Etkisi oldukça kaba olmasına rağmen, sistem, üretken yapay zeka için sırada ne olduğuna dair erken bir bakış sunuyor ve bu yıl büyük heyecana neden olan metinden görüntüye yapay zeka sistemlerinden bir sonraki açık adım.

Meta’nın henüz kamuya açıklanmayan Make-A-Video duyurusu, muhtemelen diğer AI laboratuvarlarını kendi sürümlerini yayınlamaya yönlendirecektir. Aynı zamanda bazı büyük etik soruları da gündeme getiriyor.

Yalnızca geçen ay, AI laboratuvarı OpenAI, en son metinden görüntüye AI sistemi DALL-E’yi herkesin kullanımına sundu ve AI başlangıcı Stability.AI, açık kaynaklı bir metinden görüntüye sistemi olan Stable Diffusion’ı başlattı.

Ancak metinden videoya yapay zeka, daha da büyük zorluklarla birlikte gelir. Birincisi, bu modeller büyük miktarda bilgi işlem gücüne ihtiyaç duyar. Sadece bir kısa videoyu bir araya getirmek yüzlerce görüntü gerektirdiğinden, eğitmek için milyonlarca görüntü kullanan büyük metinden görüntüye yapay zeka modellerinden bile daha büyük bir hesaplama artışı sağlarlar. Bu, öngörülebilir bir gelecek için bu sistemleri inşa etmeye gücü yetenlerin gerçekten sadece büyük teknoloji şirketleri olduğu anlamına geliyor. Ayrıca, metinle eşleştirilmiş yüksek kaliteli videoların büyük ölçekli veri kümeleri olmadığı için eğitilmesi daha zordur.

Bu sorunu çözmek için Meta, modelini eğitmek için üç açık kaynaklı görüntü ve video veri kümesinden gelen verileri birleştirdi. Etiketli durağan görüntülerden oluşan standart metin-görüntü veri kümeleri, yapay zekanın hangi nesnelerin adlandırıldığını ve neye benzediğini öğrenmesine yardımcı oldu. Ve bir video veritabanı, bu nesnelerin dünyada nasıl hareket etmesi gerektiğini öğrenmesine yardımcı oldu. İki yaklaşımın birleşimi, bugün yayınlanan hakemli olmayan bir makalede açıklanan Make-A-Video’nun metinden uygun ölçekte videolar oluşturmasına yardımcı oldu.

Allen Yapay Zeka Enstitüsü’nde bilgisayarla görü araştırma bilimcisi olan Tanmay Gupta, Meta’nın sonuçlarının umut verici olduğunu söylüyor. Paylaştığı videolar, modelin kamera dönerken 3 boyutlu şekiller yakalayabildiğini gösteriyor. Model ayrıca bir miktar derinlik ve aydınlatma anlayışına da sahiptir. Gupta, bazı detayların ve hareketlerin terbiyeli ve inandırıcı olduğunu söylüyor.

Ancak, “özellikle bu sistemler video düzenleme ve profesyonel içerik oluşturma için kullanılacaksa, araştırma topluluğunun geliştirmesi için çok fazla alan var” diye ekliyor. Özellikle, nesneler arasındaki karmaşık etkileşimleri modellemek hala zor.

“Bir sanatçının tuval üzerine fırçasıyla resim yapması” istemiyle oluşturulan videoda, fırça tuval üzerinde hareket ediyor, ancak tuval üzerindeki vuruşlar gerçekçi değil. Gupta, “Bu modellerin, ‘Adam raftan bir kitap alır, gözlüklerini takar ve bir fincan kahve içerken okumak için oturur’ gibi bir dizi etkileşim üretmeyi başardığını görmek isterim. diyor.

Source link