Onlara sorarsanız, dil modelleri önyargıları kendi kendine düzeltebilir

March 20, 2023

İkinci test, bir modelin belirli bir meslekteki birinin cinsiyetini üstlenme olasılığını kontrol etmek için tasarlanmış bir veri seti kullandı ve üçüncüsü, bir adayın hukuk fakültesine kabul edilme şansını ne kadar ırkın etkilediğini test etti. dil modelinden seçimi yapması istendi – neyse ki gerçek dünyada olmayan bir şey.

Ekip, bir modele yanıtlarının klişeleştirmeye dayanmadığından emin olmak için yönlendirmenin, özellikle yeterli sayıda RLHF turunu tamamlamış ve 22 milyardan fazla parametreye sahip modellerde, çıktısı üzerinde önemli ölçüde olumlu bir etkiye sahip olduğunu buldu. Eğitim sırasında ayarlanan yapay zeka sistemi. (Daha fazla parametre, modelin daha büyük olması anlamına gelir. GPT-3’ün yaklaşık 175 milyon parametresi vardır.) Bazı durumlarda, model çıktılarında pozitif ayrımcılık yapmaya bile başlamıştır.

En önemlisi, çoğu derin öğrenme çalışmasında olduğu gibi, araştırmacılar bazı önsezileri olmasına rağmen modellerin bunu neden yapabildiğini tam olarak bilmiyorlar. Ganguli, “Modeller büyüdükçe, daha büyük eğitim veri setlerine sahip oluyorlar ve bu veri setlerinde çok sayıda önyargılı veya basmakalıp davranış örneği var” diyor. “Bu önyargı, model boyutuyla birlikte artıyor.”

Ancak aynı zamanda, eğitim verilerinin bir yerinde, örneğin Reddit veya Twitter gibi sitelerdeki hoş olmayan gönderilere yanıt olarak, bu önyargılı davranışa karşı çıkan bazı insan örnekleri de olmalıdır. Askell, bu zayıf sinyalin kaynağı neresi olursa olsun, modelin tarafsız bir yanıt vermesi istendiğinde insan geri bildiriminin onu güçlendirmesine yardımcı olduğunu söylüyor.

Çalışma, bu “kendi kendini düzeltmenin” en baştan dil modellerine dönüştürülüp dönüştürülemeyeceği ve dönüştürülmesi gerektiği sorusunu gündeme getiriyor.

Source link