OpenAI'ın teliflerle başı dertte: Son yapılan araştırmadan beklenmedik sonuç

OpenAI'ın teliflerle başı dertte: Son yapılan araştırmadan beklenmedik sonuç

Washington, Kopenhag ve Stanford üniversitelerinden bilim insanlarının ortak çalışması, OpenAI’ın modellerinde telifli içeriklerin izine rastladı.

OpenAI’ın yapay zekâ modellerinin telif hakkıyla korunan içeriklerle eğitildiğine dair uzun süredir ortaya atılan iddialar, yeni bir akademik çalışmayla yeniden gündeme geldi. Washington Üniversitesi, Kopenhag Üniversitesi ve Stanford Üniversitesi’nden araştırmacıların ortak imzasını taşıyan bu yeni çalışma, GPT-4 ve GPT-3.5 gibi büyük dil modellerinin bazı içerikleri doğrudan ezberlemiş olabileceğini gösteriyor.

Yapay zekâ modelleri genellikle büyük miktarda metin, görsel ya da kod gibi verilerle eğitiliyor. Bu verilerdeki örüntüleri öğrenen modeller, yeni içerik üretme yeteneğine kavuşuyor. Ancak modelin bazı verileri birebir kopyalaması, yani ezberlemesi ciddi telif hakkı tartışmalarını da beraberinde getiriyor.

“YÜKSEK ŞAŞIRTICILIK” YÖNTEMİYLE TEST EDİLDİ

Araştırmacılar, modellerin eğitim verilerinden neleri ezberlediğini ölçmek için “yüksek şaşırtıcılık” adı verilen bir dilsel analitik yöntem geliştirdi. Bu yöntemde, istatistiksel olarak nadir görülen kelimeler tespit edilerek, modellerin bu kelimeleri eksik bırakılan cümlelerde ne ölçüde doğru tahmin ettiği incelendi. Örneğin, “Jack ve ben, radar uğultusuyla tamamen hareketsiz oturduk” cümlesindeki “radar” kelimesi, bağlam içinde beklenmedik olduğu için yüksek şaşırtıcılığa sahip sayılıyor.

Araştırma, bu tür kelimeler çıkarıldığında GPT-4’ün, özellikle kurgu kitapları ve New York Times makalelerinden alınan metin parçacıklarını başarıyla tamamladığını ortaya koydu. Bu da modelin söz konusu içerikleri büyük olasılıkla eğitim sırasında ezberlediği anlamına geliyor.

TELİFLİ KİTAPLAR VE HABERLER EZBERLENMİŞ

Araştırmada özellikle BookMIA adlı bir veritabanındaki telifli e-kitap örneklerine dair ezberleme izleri bulundu. Ayrıca New York Times makalelerinde de daha düşük oranda olsa da benzer ezberleme belirtileri gözlemlendi. Bu durum, modellerin telifli eserlerle eğitilmiş olabileceği iddialarını güçlendiriyor.

Araştırmanın ortak yazarı ve Washington Üniversitesi doktora öğrencisi Abhilasha Ravichander, konuyla ilgili şu değerlendirmede bulundu:

Güvenilir büyük dil modelleri inşa edebilmemiz için onları bilimsel yöntemlerle denetleyebilmeli, şeffaflıkla inceleyebilmeliyiz. Bu araştırma, o denetim araçlarından birini sunmayı amaçlıyor. Ancak ekosistem genelinde çok daha fazla veri şeffaflığına ihtiyaç var.

OPENAI SAVUNMADA: “ADİL KULLANIM VE LİSANSLAR”

OpenAI ise bu konuda farklı bir pozisyonda. Şirket, uzun süredir modellerin eğitilmesinde “adil kullanım” savunmasını öne sürüyor. Bununla birlikte bazı içerik üreticileriyle lisans anlaşmaları yaptığını ve telif sahiplerine içeriklerinin model eğitiminde kullanılmaması için “vazgeçme” hakkı tanıdığını belirtiyor.

Ancak şirket aynı zamanda çeşitli hükümetlere, yapay zekâ eğitimi konusunda adil kullanım ilkelerinin daha esnek ve kapsayıcı bir biçimde yasal çerçeveye oturtulması yönünde lobi faaliyetleri yürütüyor. Bu durum ise özellikle yazarlar, yazılımcılar ve gazeteciler tarafından eleştiriliyor. Çünkü bu içerik üreticileri, eserlerinin rızaları olmadan ticari amaçlı yapay zekâ sistemlerinde kullanılmasına karşı çıkıyor.

YASAL TARTIŞMALAR DERİNLEŞİYOR

OpenAI şu anda farklı meslek gruplarından birçok kişinin açtığı telif davalarıyla karşı karşıya. Bu davalarda ortak şikâyet, kitapların, kodların ve haber içeriklerinin izinsiz şekilde model eğitimi için kullanılmış olması. ABD telif hakkı yasalarında bu tür durumlar için açık bir muafiyet bulunmadığı gerekçesiyle davacılar, OpenAI’ın uygulamalarını yasa dışı buluyor.

Araştırmanın ortaya koyduğu teknik kanıtlar ise bu davalarda önemli bir rol oynayabilir. Zira modellerin belli içerikleri birebir hatırlayıp yeniden üretmesi, adil kullanım sınırlarının aşıldığını gösterebilir.

YAPAY ZEKÂ EĞİTİMİNDE ŞEFFAFLIK İHTİYACI

Tartışmaların temelinde, yapay zekâ modellerinin nasıl eğitildiğine dair bilgi eksikliği yatıyor. Şirketlerin eğitim verilerini açıklamaması, modellerin etik ve yasal sınırlar içinde geliştirilip geliştirilmediği konusunda kamuoyunun net bir fikre sahip olmasını engelliyor. Bu noktada, Ravichander gibi araştırmacılar tarafından geliştirilen analiz yöntemleri, modellerin geçmişine dair ipuçları sunma açısından önemli bir boşluğu dolduruyor.

Telif hakkı yasalarının gelecekte yapay zekâ çağının ihtiyaçlarına nasıl uyarlanacağı, hem teknoloji şirketleri hem de içerik üreticileri açısından belirleyici olacak. Bu tartışmaların merkezinde yer alan OpenAI ve GPT-4 gibi modeller, yalnızca teknik gelişmelerin değil, aynı zamanda hukuki ve etik dönüşümlerin de baş aktörleri olmaya devam ediyor.

study-claims-openai-trains-ai-models-copyright-data-gpt-4o-research-law-ethics-disclosures-project.jpg