نماذج OpenAI حفظت محتوى محميًا بحقوق النشر من كتب ومقالات دون إذن

كشفت دراسة أكاديمية حديثة عن أدلة تدعم اتهامات موجهة إلى شركة OpenAI باستخدام محتوى محمي بحقوق النشر في تدريب نماذجها الذكية، مثل GPT-4 وGPT-3.5، دون الحصول على إذن من أصحاب الحقوق.

 

وتواجه الشركة حالياً عدة دعاوى قضائية من مؤلفين ومبرمجين وغيرهم من أصحاب الحقوق، تتهمها باستخدام كتب ومقالات وقواعد بيانات برمجية لتطوير نماذجها دون مراعاة قوانين حقوق النشر. وبينما تستند OpenAI في دفاعها إلى مبدأ “الاستخدام العادل”، يرى المدّعون أن القانون الأمريكي لا يتضمن استثناءات واضحة تسمح باستخدام هذا النوع من البيانات في تدريب الذكاء الاصطناعي.

 

الدراسة، التي شارك في إعدادها باحثون من جامعات واشنطن، كوبنهاغن، وستانفورد، اعتمدت على تقنية مبتكرة لاكتشاف ما إذا كانت النماذج قد “حفظت” نصوصاً من بيانات التدريب. وركزت هذه التقنية على ما يُعرف بـ”الكلمات عالية المفاجأة” — وهي كلمات غير شائعة تظهر في سياقات لغوية محددة، مثل كلمة “رادار” في عبارة: “جلسنا أنا وجاك بهدوء والرادار يهمهم”.

 

قام الباحثون بحذف هذه الكلمات من مقاطع مأخوذة من روايات خيالية ومقالات منشورة في صحيفة نيويورك تايمز، ثم طلبوا من نماذج OpenAI محاولة تخمين الكلمات المحذوفة. وعندما كانت النماذج تنجح في التخمين بدقة عالية، اعتبر ذلك مؤشراً قوياً على أنها حفظت هذه المقاطع خلال التدريب.

 

وأظهرت النتائج أن نموذج GPT-4 أظهر علامات واضحة على حفظ محتوى مأخوذ من روايات مشهورة مدرجة في قاعدة بيانات BookMIA، التي تضم عينات من كتب إلكترونية محمية بحقوق النشر. كما لوحظ حفظه لأجزاء من مقالات صحيفة نيويورك تايمز، وإن كان ذلك بنسبة أقل.

 

وفي تعليقها على النتائج، قالت أبهيلشا رافيشنادر، الباحثة المشاركة في الدراسة وطالبة الدكتوراه بجامعة واشنطن، إن هذه النتائج تسلط الضوء على الحاجة الملحّة إلى مزيد من الشفافية في بيانات تدريب الذكاء الاصطناعي. وأضافت: “لكي نتمكن من بناء نماذج لغوية يمكن الوثوق بها، نحتاج إلى أدوات علمية لفحصها وتقييمها. هذه الدراسة تمثل خطوة في هذا الاتجاه”.

 

يُذكر أن OpenAI أبرمت اتفاقيات ترخيص محدودة مع بعض الجهات، كما تتيح آلية لأصحاب الحقوق لطلب استبعاد أعمالهم من عمليات التدريب المستقبلية. في المقابل، تسعى الشركة للضغط على الحكومات لتوسيع مفهوم “الاستخدام العادل” ليشمل تدريب نماذج الذكاء الاصطناعي، وهو ما يثير جدلاً واسعاً في الأوساط القانونية والتقنية على حد سواء.

التعليق بواسطة حساب الفيسبوك

مقالات ذات صلة

زر الذهاب إلى الأعلى