OpenAI’nin veri açlığı onu ısırmak için geri geliyor
Yapay zeka geliştirmede baskın paradigma, ne kadar çok eğitim verisi olursa o kadar iyi olmasıdır. OpenAI’nin GPT-2 modeli, 40 gigabayt metinden oluşan bir veri setine sahipti. ChatGPT’nin temel aldığı GPT-3, 570 GB veri üzerinde eğitilmiştir. OpenAI, son modeli GPT-4 için veri setinin ne kadar büyük olduğunu paylaşmadı.
Ancak daha büyük modellere duyulan bu açlık, şimdi şirketi ısırmak için geri geliyor. Geçtiğimiz birkaç hafta içinde, birkaç Batılı veri koruma yetkilisi, OpenAI’nin ChatGPT’ye güç veren verileri nasıl toplayıp işlediğine dair soruşturmalar başlattı. İnsanların adları veya e-posta adresleri gibi kişisel verilerini kazıdığına ve onların rızası olmadan kullandığına inanıyorlar.
İtalyan makamı, ihtiyati tedbir olarak ChatGPT kullanımını engelledi ve Fransız, Alman, İrlandalı ve Kanadalı veri düzenleyicileri de OpenAI sisteminin verileri nasıl topladığını ve kullandığını araştırıyor. Veri koruma yetkililerinin çatı kuruluşu olan Avrupa Veri Koruma Kurulu, ChatGPT kapsamındaki soruşturmaları ve yaptırımları koordine etmek için AB çapında bir görev gücü de kuruyor.
İtalya, yasaya uyması için OpenAI’ye 30 Nisan’a kadar süre verdi. Bu, OpenAI’nin verilerinin kazınması için insanlardan onay istemesi veya verileri toplamakta “meşru bir menfaati” olduğunu kanıtlaması gerektiği anlamına gelir. OpenAI ayrıca insanlara ChatGPT’nin verilerini nasıl kullandığını açıklamalı ve onlara, chatbot’un kendileriyle ilgili yaptığı hataları düzeltme, isterlerse verilerini silme ve bilgisayar programının kullanmasına izin vermeme yetkisi vermeli.
OpenAI, yetkilileri veri kullanım uygulamalarının yasal olduğuna ikna edemezse, belirli ülkelerde ve hatta tüm Avrupa Birliği’nde yasaklanabilir. Fransız veri koruma kurumu CNIL’de AI uzmanı olan Alexis Leautier, aynı zamanda ağır para cezalarıyla karşı karşıya kalabileceğini ve hatta modelleri ve onları eğitmek için kullanılan verileri silmek zorunda kalabileceğini söylüyor.
Newcastle Üniversitesi’nde internet hukuku profesörü olan Lilian Edwards, OpenAI ihlallerinin o kadar bariz olduğunu ve bu davanın AB’nin en yüksek mahkemesi olan Avrupa Birliği Adalet Divanı’nda sonuçlanmasının muhtemel olduğunu söylüyor. İtalyan veri düzenleyicisi tarafından sorulan soruların yanıtını görmemiz yıllar alabilir.
Yüksek bahisli oyun
OpenAI için bahisler daha yüksek olamazdı. AB’nin Genel Veri Koruma Yönetmeliği, dünyanın en katı veri koruma rejimidir ve dünya çapında geniş çapta kopyalanmıştır. Brezilya’dan Kaliforniya’ya kadar her yerdeki düzenleyiciler, bundan sonra ne olacağına yakından dikkat edecek ve sonuç, AI şirketlerinin veri toplama şeklini temelden değiştirebilir.
OpenAI, veri uygulamaları hakkında daha şeffaf olmanın yanı sıra, algoritmaları için eğitim verilerini toplamanın iki olası yasal yolundan birini kullandığını göstermek zorunda kalacak: izin veya “meşru menfaat”.