
تواجه شركة OpenAI مزيدًا من الانتقادات بشأن ممارساتها في تدريب نماذج الذكاء الاصطناعي، حيث أشار تقرير حديث صادر عن منظمة رقابية إلى أن الشركة استخدمت كتبًا غير متاحة للعامة ولم تحصل على إذن لاستخدامها، بهدف تطوير نماذجها الأكثر تقدمًا.
تعتمد نماذج الذكاء الاصطناعي على تحليل كميات هائلة من البيانات، بما في ذلك الكتب والأفلام والبرامج التلفزيونية، لاكتشاف الأنماط وتوليد محتوى جديد بناءً على مدخلات المستخدم. ومع ذلك، لا تبتكر هذه النماذج أفكارًا جديدة بقدر ما تعيد تركيب المعرفة التي تم تدريبها عليها.
تقرير AI Disclosures Project
وفقًا لتقرير صادر عن AI Disclosures Project، وهي منظمة غير ربحية تأسست عام 2024 من قبل رجل الأعمال تيم أوريلي والخبير الاقتصادي إيلان ستراوس، فإن نموذج GPT-4o من OpenAI قد تم تدريبه على كتب محمية بحقوق النشر من منشورات O’Reilly Media، دون اتفاقية ترخيص.
وأوضح التقرير أن GPT-4o يظهر قدرة أكبر على التعرف على محتوى كتب O’Reilly غير المتاحة للعامة مقارنة بنموذج GPT-3.5 Turbo، الذي يبدو أنه يعتمد أكثر على الكتب المتاحة مجانًا.
لإثبات ذلك، استخدم الباحثون تقنية تحليل تُعرف باسم DE-COP، وهي طريقة متقدمة مصممة للكشف عن المحتوى المحمي بحقوق النشر داخل بيانات تدريب النماذج اللغوية. تعتمد هذه الطريقة على قياس مدى قدرة النموذج على التمييز بين النصوص الأصلية والنصوص المعاد صياغتها بواسطة الذكاء الاصطناعي، حيث يشير الأداء العالي في هذا الاختبار إلى احتمال وجود النصوص الأصلية ضمن بيانات التدريب.
قام الباحثون بتحليل استجابات نماذج OpenAI المختلفة باستخدام 13,962 مقطعًا مأخوذًا من 34 كتابًا من منشورات O’Reilly، وأظهرت النتائج أن GPT-4o تعرّف على عدد أكبر من المقاطع المحمية مقارنة بـ GPT-3.5 Turbo، حتى بعد أخذ التحسينات في أداء النماذج الأحدث بعين الاعتبار.
إطلاق نموذج o1 Pro من OpenAI للمطورين