Yapay zeka tarafından oluşturulan metinlerdeki filigranları değiştirmek kolaydır

March 29, 2024 admin-jump2top

Yapay zeka dil modelleri, bir cümledeki bir sonraki olası kelimeyi tahmin ederek ve bu tahminlere dayanarak her seferinde bir kelime üreterek çalışır. Metin için filigranlama algoritmaları, dil modelinin kelime dağarcığını bir “yeşil liste” ve bir “kırmızı liste”deki kelimelere böler ve ardından AI modelinin yeşil listeden kelimeler seçmesini sağlar. Bir cümlede yeşil listeden ne kadar çok kelime varsa, metnin bir bilgisayar tarafından oluşturulmuş olma ihtimali o kadar yüksektir. İnsanlar daha rastgele bir sözcük karışımı içeren cümleler yazma eğilimindedir.

Araştırmacılar bu şekilde çalışan beş farklı filigranı değiştirdiler. Staab, filigranın uygulandığı yapay zeka modeline erişmek için bir API kullanarak ve bunu birçok kez isteyerek filigranlara tersine mühendislik uygulayabildiklerini söylüyor. Yanıtlar, saldırganın filigran kurallarının yaklaşık bir modelini oluşturarak filigranı “çalmasına” olanak tanır. Bunu yapay zeka çıktılarını analiz edip normal metinle karşılaştırarak yapıyorlar.

Filigranlı kelimelerin ne olabileceğine dair yaklaşık bir fikre sahip olduklarında, bu araştırmacıların iki tür saldırı gerçekleştirmesine olanak tanır. Sahtecilik saldırısı olarak adlandırılan ilk saldırı, kötü niyetli aktörlerin filigranı çalarak öğrendikleri bilgileri filigranlı olarak aktarılabilecek metinler üretmek için kullanmalarına olanak tanır. İkinci saldırı, bilgisayar korsanlarının yapay zeka tarafından oluşturulan metni filigrandan temizlemesine olanak tanır, böylece metin, insan tarafından yazılmış gibi gösterilebilir.

Ekip, sahte filigranlarda yaklaşık %80'lik bir başarı oranına ve yapay zeka tarafından oluşturulan metni filigrandan çıkarmada %85'lik bir başarı oranına sahipti.

Maryland Üniversitesi Güvenilir Yapay Zeka Laboratuvarı'nın doçenti ve yöneticisi Soheil Feizi gibi ETH Zürih ekibine bağlı olmayan araştırmacılar da filigranların güvenilmez ve sahtekarlık saldırılarına karşı savunmasız olduğunu buldu.

Feizi, ETH Zürih'ten elde edilen bulguların, filigranlarla ilgili bu sorunların devam ettiğini ve bugün kullanılan en gelişmiş sohbet robotu türlerine ve büyük dil modellerine kadar uzandığını doğruladığını söylüyor.

Araştırma, “bu tür tespit mekanizmalarını geniş ölçekte devreye alırken dikkatli olmanın öneminin altını çiziyor” diyor.

ETH Zürich'te araştırma üzerinde çalışan doktora öğrencisi Nikola Jovanović, bulgulara rağmen filigranların yapay zeka tarafından oluşturulan içeriği tespit etmenin en umut verici yolu olmaya devam ettiğini söylüyor.

Ancak filigranları geniş ölçekte kullanıma hazır hale getirmek için daha fazla araştırmaya ihtiyaç olduğunu da ekliyor. O zamana kadar bu araçların ne kadar güvenilir ve kullanışlı olduğuna dair beklentilerimizi yönetmeliyiz. “Hiç yoktan iyi olsa da yine de faydalıdır” diyor.

Güncelleme: Bu araştırma Uluslararası Öğrenme Temsilleri Konferansı konferansında sunulacaktır. Hikaye bunu yansıtacak şekilde güncellendi.

Source link