ChatGPT’nin onu yapan kişilerden nasıl oluşturulduğuna dair iç hikaye

March 3, 2023

Sandhini Agarwal: Daha atacağımız çok adım var. Kesinlikle ChatGPT’nin viral hale gelmesinin, var olduğunu bildiğimiz pek çok sorunu gerçekten alevlendirdiğini ve kritik hale getirdiğini düşünüyorum – mümkün olan en kısa sürede çözmek istediğimiz şeyler. Mesela, modelin hala çok taraflı olduğunu biliyoruz. Ve evet, ChatGPT kötü istekleri reddetme konusunda çok iyidir, ancak reddetmesini istediğimiz şeyi reddetmemesini sağlayan istemler yazmak da oldukça kolaydır.

Liam Fedus: Kullanıcıların çeşitli ve yaratıcı uygulamalarını izlemek heyecan vericiydi, ancak biz her zaman geliştirilecek alanlara odaklandık. Dağıttığımız, geri bildirim aldığımız ve iyileştirdiğimiz yinelemeli bir süreç aracılığıyla en uyumlu ve yetenekli teknolojiyi üretebileceğimizi düşünüyoruz. Teknolojimiz geliştikçe, kaçınılmaz olarak yeni sorunlar ortaya çıkıyor.

Sandhini Agarwal: Lansmandan sonraki haftalarda, insanların bulduğu en korkunç örneklerden bazılarına, insanların vahşi doğada gördükleri en kötü şeylere baktık. Her birini bir nevi değerlendirdik ve nasıl düzeltmemiz gerektiğini konuştuk.

Jan Leike: Bazen Twitter’da viral olan bir şeydir, ancak gerçekten sessizce ulaşan bazı insanlarımız var.

Sandhini Agarwal: Bulduğumuz birçok şey, kesinlikle düzeltmemiz gereken bir sorun olan jailbreak’lerdi. Ancak kullanıcılar, modele kötü bir şey söyletmek için bu dolambaçlı yöntemleri denemek zorunda olduklarından, bu tamamen gözden kaçırdığımız bir şey değildi ya da bizim için çok şaşırtıcı bir şey değildi. Yine de bu, şu anda aktif olarak üzerinde çalıştığımız bir konu. Jailbreak’leri bulduğumuzda, onları eğitim ve test verilerimize ekliyoruz. Gördüğümüz tüm veriler gelecekteki bir modeli besliyor.

Jan Leike: Ne zaman daha iyi bir modelimiz olsa, onu çıkarıp test etmek isteriz. Bazı hedefli düşman eğitiminin jailbreaking ile durumu çok iyileştirebileceği konusunda çok iyimseriz. Bu sorunların tamamen çözülüp çözülmeyeceği belli değil, ancak jailbreak’in çoğunu çok daha zor hale getirebileceğimizi düşünüyoruz. Yine, serbest bırakılmadan önce jailbreak yapmanın mümkün olduğunu bilmiyormuşuz gibi değil. Bu sistemleri bir kez konuşlandırdıktan sonra gerçek güvenlik sorunlarının ne olacağını gerçekten tahmin etmenin çok zor olduğunu düşünüyorum. Bu nedenle, insanların sistemi ne için kullandıklarını izlemeye, ne olduğunu görmeye ve ardından buna tepki vermeye çok önem veriyoruz. Bu, güvenlik sorunlarını öngördüğümüzde proaktif olarak azaltmamamız gerektiği anlamına gelmez. Ama evet, bir sistem gerçek dünyaya çarptığında gerçekte olacak her şeyi öngörmek çok zor.

Ocak ayında Microsoft, çoğu kişinin OpenAI’nin resmi olarak duyurulmamış GPT-4’ünün bir sürümü olduğunu varsaydığı bir arama sohbet robotu olan Bing Chat’i ortaya çıkardı. (OpenAI şöyle diyor: “Bing, Microsoft’un özellikle arama için özelleştirdiği yeni nesil modellerimizden biri tarafından destekleniyor. ChatGPT ve GPT-3.5’teki gelişmeleri içeriyor.”) Korumak için milyarlarca dolarlık itibara sahip teknoloji devleri tarafından sohbet robotlarının kullanılması, altta yatan modelleri oluşturmakla görevli olanlar için yeni zorluklar.

Source link