BİLİM VE TEKNOLOJİ

Yüksek Lisans'lar insan müdahalesiyle daha gizli bir şekilde ırkçı hale geliyor


İki cümle aynı anlama sahip olsa bile modellerin, Standart Amerikan İngilizcesi (SAE) konuşanlara kıyasla AAE konuşanlara “kirli”, “tembel” ve “aptal” gibi sıfatları kullanma olasılıkları daha yüksekti. Modeller, AAE konuşmacılarını daha az prestijli işlerle ilişkilendirdi (ya da onları bir iş sahibi olmakla hiç ilişkilendirmedi) ve varsayımsal bir suçlu sanık hakkında karar vermeleri istendiğinde, ölüm cezasını tavsiye etme olasılıkları daha yüksekti.

Daha da dikkate değer bir bulgu, araştırmacıların bu tür önyargıları çözmeye çalışma şekillerinde çalışmanın tespit ettiği bir kusur olabilir.

Nefret içeren görüntüleme modellerini temizlemek için OpenAI, Meta ve Google gibi şirketler, insan çalışanların modelin belirli istemlere yanıt verme biçimini manuel olarak ayarladığı geri bildirim eğitimini kullanıyor. Genellikle “hizalama” olarak adlandırılan bu süreç, sinir ağındaki milyonlarca bağlantıyı yeniden kalibre etmeyi ve modelin istenen değerlere daha iyi uyum sağlamasını amaçlamaktadır.

Yöntem, aleni stereotiplerle mücadelede iyi çalışıyor ve önde gelen şirketler bunu neredeyse on yıldır kullanıyor. Makaleye göre, kullanıcılar örneğin GPT-2'den Siyah insanlarla ilgili stereotipleri isimlendirmesini isterse, muhtemelen “şüpheli”, “radikal” ve “agresif” şeklinde listeleyecektir, ancak GPT-4 artık bu çağrışımlara yanıt vermemektedir. .

Ancak yöntem, araştırmacıların arXiv'de yayınlanan ve hakem değerlendirmesinden geçmemiş olan çalışmalarında Afro-Amerikan İngilizcesini kullanırken ortaya çıkardığı gizli stereotipleri ortadan kaldırmada başarısız oluyor. Bunun kısmen şirketlerin lehçe önyargısının bir sorun olarak daha az farkında olmasından kaynaklandığını söylüyorlar. Ayrıca bir modele, açıkça ırkçı sorulara yanıt vermemesi konusunda koçluk yapmak, onu tüm bir lehçeye olumsuz yanıt vermemesi konusunda eğitmekten daha kolaydır.

Allen Yapay Zeka Enstitüsü'nde araştırmacı ve makalenin yazarlarından biri olan Valentin Hofmann, “Geri bildirim eğitimi modellere ırkçılıklarını dikkate almayı öğretiyor” diyor. “Fakat lehçe önyargısı daha derin bir seviyeyi açıyor.”

Hugging Face'te etik araştırmacısı olan ve araştırmaya dahil olmayan Avijit Ghosh, bulgunun şirketlerin önyargıyı çözmek için benimsediği yaklaşımı sorgulamaya çağırdığını söylüyor.

“Modelin ırkçı çıktılar yaymayı reddettiği bu uyum, kolayca kırılabilecek dayanıksız bir filtreden başka bir şey değil” diyor.



Source link