Metinden görüntüye yapay zeka modelleri, rahatsız edici görüntüler oluşturacak şekilde kandırılabilir

November 17, 2023

Gelecek yıl Mayıs ayında IEEE Güvenlik ve Gizlilik Sempozyumu’nda sunacakları çalışmaları, üretken yapay zeka modellerini “jailbreaking” olarak bilinen kendi korkuluklarını ve politikalarını göz ardı etmeye zorlamanın ne kadar kolay olduğuna ışık tutuyor. Carnegie Mellon Üniversitesi’nden doçent Zico Kolter, aynı zamanda bu modellerin bu tür içerik üretmesini engellemenin ne kadar zor olduğunu da gösteriyor, çünkü bu, üzerinde eğitim aldıkları geniş veri hazinesi arasında yer alıyor. Bu yılın başlarında ChatGPT’de benzer bir jailbreak biçimini gösterdi ancak bu araştırmaya dahil olmadı.

“Güvenlik kusurları olduğu bilinen yazılım ve araçların daha büyük yazılım sistemlerine sunulmasındaki potansiyel riskleri hesaba katmalıyız” diyor.

Tüm büyük üretken yapay zeka modellerinde, kullanıcıların pornografik, şiddet içeren veya başka şekilde uygunsuz görüntüler üretmeye teşvik etmesini önleyen güvenlik filtreleri bulunur. Modeller, “çıplak”, “cinayet” veya “seksi” gibi hassas terimler içeren istemlerden görseller oluşturmayacak.

Ancak Johns Hopkins Üniversitesi ve Duke Üniversitesi’ndeki yaratıcıları tarafından “SneakyPrompt” olarak adlandırılan bu yeni jailbreak yöntemi, bize çarpıtılmış saçmalık gibi görünen ancak yapay zeka modellerinin rahatsız edici görüntülere yönelik gizli istekler olarak tanımayı öğrendiği yazılı istemler oluşturmak için takviyeli öğrenmeyi kullanıyor. Temel olarak metinden resme yapay zeka modellerinin çalışma biçimini onlara karşı çevirerek çalışır.

Bu modeller, komut isteminin onlara verdiği komutu işlemek için metin tabanlı istekleri belirteçlere dönüştürür (sözcükleri sözcük veya karakter dizilerine böler). SneakyPrompt, istemin belirteçlerini tekrar tekrar ayarlayarak onu yasaklı görüntüler oluşturmaya zorlar ve başarılı olana kadar yaklaşımını ayarlar. Bu teknik, bu tür görüntülerin oluşturulmasını, birinin her girişi manuel olarak girmesine kıyasla daha hızlı ve daha kolay hale getiriyor ve insanların denemeyi hayal bile edemeyeceği girişler oluşturabiliyor.

Source link