Üretken yapay zeka her şeyi değiştiriyor. Ama yutturmaca gittiğinde geriye ne kalır?

December 16, 2022

Yeni modellerin arkasındaki büyük atılım, görüntülerin oluşturulma biçimindedir. DALL-E’nin ilk sürümü, OpenAI’nin dil modeli GPT-3’ün arkasındaki teknolojinin bir uzantısını kullanıyordu ve görüntüdeki bir sonraki pikseli sanki bir cümle içindeki sözcüklermiş gibi tahmin ederek görüntüler üretiyordu. Bu işe yaradı ama pek iyi olmadı. Altman, “Büyülü bir deneyim değildi” diyor. “İşe yaramış olması inanılmaz.”

Bunun yerine DALL-E 2, difüzyon modeli adı verilen bir şey kullanır. Difüzyon modelleri, eğitim sürecinin eklediği pikselli gürültüyü kaldırarak görüntüleri temizlemek için eğitilmiş sinir ağlarıdır. İşlem, orijinal görüntüler silinene ve size rastgele piksellerden başka bir şey kalmayana kadar, birçok adımda görüntü almayı ve her seferinde birkaç pikseli değiştirmeyi içerir. Almanya’daki Münih Üniversitesi’nde üretken yapay zeka üzerinde çalışan ve yapının oluşturulmasına yardımcı olan Björn Ommer, “Bunu bin kez yaparsanız, sonunda görüntü anten kablosunu TV setinizden çıkarmışsınız gibi görünür; sadece kar yağıyor” diyor. şimdi Kararlı Difüzyona güç veren difüzyon modeli.

Sinir ağı daha sonra bu işlemi tersine çevirmek ve belirli bir görüntünün daha az pikselli versiyonunun nasıl görüneceğini tahmin etmek için eğitilir. Sonuç olarak, bir difüzyon modeline bir piksel karmaşası verirseniz, biraz daha temiz bir şey üretmeye çalışacaktır. Temizlenmiş görüntüyü tekrar takın ve model daha temiz bir şey üretecektir. Bunu yeterince kez yapın ve model sizi TV kardan yüksek çözünürlüklü bir resme kadar götürebilir.

AI sanat üreteçleri asla tam olarak istediğiniz gibi çalışmaz. Genellikle en iyi ihtimalle çarpıtılmış stok sanatına benzeyen iğrenç sonuçlar üretirler. Tecrübelerime göre, işi gerçekten iyi göstermenin tek yolu, estetik açıdan hoş görünen bir stille sonuna tanımlayıcı eklemektir.

~ Erik Carter

Metinden görüntüye modellerin püf noktası, bu sürecin, bir istemi difüzyon modelinin ürettiği görüntülerle eşleştirmeye çalışan dil modeli tarafından yönlendirilmesidir. Bu, difüzyon modelini, dil modelinin iyi bir eşleşme olarak gördüğü görüntülere doğru iter.

Ancak modeller, metin ve resimler arasındaki bağlantıları yoktan var etmiyor. Günümüzde metinden görüntüye modellerin çoğu, internetten kazınmış milyarlarca metin ve görüntü çifti içeren LAION adlı büyük bir veri kümesi üzerinde eğitilmektedir. Bu, metinden görüntüye bir modelden elde ettiğiniz görüntülerin, önyargı (ve pornografi) tarafından çarpıtılmış, çevrimiçi temsil edildiği şekliyle dünyanın damıtılmış hali olduğu anlamına gelir.

Son bir şey: En popüler iki model olan DALL-E 2 ve Stable Diffusion arasında küçük ama çok önemli bir fark var. DALL-E 2’nin yayılma modeli, tam boyutlu görüntülerde çalışır. Kararlı Difüzyon ise Ommer ve meslektaşları tarafından icat edilen gizli difüzyon adı verilen bir teknik kullanır. Bir görüntünün yalnızca temel özelliklerinin tutulduğu gizli alan olarak bilinen sinir ağı içinde kodlanmış görüntülerin sıkıştırılmış sürümlerinde çalışır.

Bu, Kararlı Difüzyonun çalışması için daha az bilgi işlem gücü gerektirdiği anlamına gelir. OpenAI’nin güçlü sunucularında çalışan DALL-E 2’nin aksine, Stable Diffusion (iyi) kişisel bilgisayarlarda çalışabilir. Yaratıcılık patlamasının ve yeni uygulamaların hızlı gelişiminin büyük bir kısmı, Stable Diffusion’ın hem açık kaynak olması (programcıların onu değiştirmekte, üzerine inşa etmekte ve ondan para kazanmakta özgür olması) hem de insanların çalıştırabileceği kadar hafif olmasından kaynaklanmaktadır. evde.

yaratıcılığı yeniden tanımlıyor

Bazıları için, bu modeller yapay genel zekaya veya genel amaçlı ve hatta insan benzeri yeteneklere sahip gelecekteki bir yapay zekaya atıfta bulunan aşırı abartılı bir terim olan AGI’ye doğru bir adımdır. OpenAI, AGI’ye ulaşma hedefi konusunda açıktı. Bu nedenle Altman, DALL-E 2’nin artık bazıları ücretsiz olan bir dizi benzer araçla rekabet etmesini umursamıyor. “Görüntü üreteçleri değil, AGI yapmak için buradayız” diyor. “Daha geniş bir ürün yol haritasına sığacak. Bir AGI’nin yapacaklarının ufacık bir unsuru.”

Source link