OpenAI, Sora adında muhteşem yeni bir üretken video modelini tanıtıyor
Bunu öğrenmemiz biraz zaman alabilir. OpenAI'nin bugün Sora'yı duyurması teknik bir taklittir ve şirket, bunu halka açıklama yönünde herhangi bir planlarının olmadığını söylüyor. Bunun yerine OpenAI bugün modeli ilk kez üçüncü taraf güvenlik testçileriyle paylaşmaya başlayacak.
Firma özellikle sahte ama fotogerçekçi videoların olası suiistimallerinden endişe duyuyor. Firmanın metinden resme modelini oluşturan OpenAI bilim insanı Aditya Ramesh, “Burada dağıtım konusunda dikkatli davranıyoruz ve bunu halkın kullanımına sunmadan önce tüm temellerimizin ele alındığından emin oluyoruz” diyor. DALL-E.
Ancak OpenAI gelecekte bir ürün lansmanı yapmayı planlıyor. Şirket, güvenlik testçilerinin yanı sıra, Sora'nın yaratıcı profesyoneller için nasıl mümkün olduğunca kullanışlı hale getirilebileceği konusunda geri bildirim almak üzere modeli seçkin bir video yapımcısı ve sanatçı grubuyla da paylaşıyor. Ramesh, “Diğer amaç ise herkese ufukta neler olduğunu göstermek, bu modellerin neler yapabileceğine dair bir ön izleme sunmak” diyor.
Ekip, Sora'yı oluşturmak için OpenAI'nin amiral gemisi metinden resme modelinin en son sürümü olan DALL-E 3'ün arkasındaki teknolojiyi uyarladı. Çoğu metinden görüntüye model gibi, DALL-E 3 de yayılma modeli olarak bilinen modeli kullanır. Bunlar, rastgele piksellerden oluşan bir tüyü bir resme dönüştürmek için eğitilmiştir.
Sora bu yaklaşımı benimsiyor ve durağan görüntüler yerine videolara uyguluyor. Ancak araştırmacılar karışıma başka bir teknik daha eklediler. DALL-E veya diğer çoğu üretken video modelinden farklı olarak Sora, yayılma modelini transformatör adı verilen bir tür sinir ağıyla birleştirir.
Transformatörler, kelimeler gibi uzun veri dizilerini işlemede mükemmeldir. Bu onları OpenAI'nin GPT-4'ü ve Google DeepMind'ın Gemini'si gibi büyük dil modellerinde özel sos haline getirdi. Ancak videolar kelimelerden oluşmaz. Bunun yerine araştırmacılar, videoları sanki öyleymiş gibi ele alınabilecek parçalara ayırmanın bir yolunu bulmalıydı. Buldukları yaklaşım, videoları hem uzay hem de zaman içinde parçalara ayırmaktı. Brooks, “Bu, tüm video karelerinden oluşan bir yığına sahip olmanız ve ondan küçük küpler kesmeniz gibi bir şey” diyor.
Sora'nın içindeki dönüştürücü, bu video verisi parçalarını, büyük bir dil modelinin içindeki dönüştürücünün bir metin bloğundaki kelimeleri işlemesine benzer şekilde işleyebilir. Araştırmacılar bunun Sora'yı diğer metinden videoya modellerine göre farklı çözünürlükler, süreler, en boy oranı ve yönlendirme dahil olmak üzere çok daha fazla video türü üzerinde eğitmelerine olanak sağladığını söylüyor. Brooks, “Bu gerçekten modele yardımcı oluyor” diyor. “Bu, üzerinde mevcut herhangi bir çalışmanın farkında olmadığımız bir şey.”
OpenAI, üretken bir video modelinin getirdiği risklerin çok iyi farkındadır. Deepfake görsellerin geniş çapta kötüye kullanıldığını zaten görüyoruz. Fotogerçekçi video bunu başka bir düzeye taşıyor.