OpenAI تطلق برنامج “الروّاد” لإعادة تعريف معايير تقييم نماذج الذكاء الاصطناعي في القطاعات الحيوية

أعلنت شركة OpenAI عن إطلاق برنامج جديد يحمل اسم “الروّاد – Pioneers Program”، يهدف إلى إصلاح النظام الحالي لتقييم نماذج الذكاء الاصطناعي، الذي ترى الشركة أنه لم يعد يعكس بدقة قدرات النماذج أو مدى تأثيرها الواقعي في مختلف القطاعات.

 

وقالت الشركة في بيان رسمي إن البرنامج سيركز على تطوير اختبارات تقييم جديدة تُحدّد بوضوح “ما الذي يُعد أداءً جيدًا”، وذلك من خلال تصميم تقييمات مخصصة لمجالات تطبيقية دقيقة مثل القانون، والمالية، والتأمين، والرعاية الصحية، والمحاسبة. وأشارت إلى أن هذه التقييمات ستعكس الاستخدام الفعلي للنماذج في بيئات حقيقية، حيث الدقة والموثوقية أمران بالغَا الأهمية.

 

وأضافت OpenAI: “مع تسارع وتيرة استخدام الذكاء الاصطناعي في شتى المجالات، تبرز الحاجة إلى أدوات تقييم أكثر دقة وواقعية لفهم تأثيره وتحسين أدائه”. وأوضحت أن التقييمات المخصصة لكل مجال تتيح للشركات قياس فعالية النماذج في مواقف عملية ذات حساسية عالية.

 

يأتي هذا التوجّه في أعقاب الجدل الدائر حول معايير التقييم الحالية، مثل منصة LM Arena ونموذج Maverick من شركة Meta، حيث أظهرت تلك الحالات صعوبة التمييز بين النماذج بدقة، في ظل اعتماد بعض التقييمات على مهام أكاديمية نظرية أو قابلة للتحايل، ولا تعكس بالضرورة احتياجات المستخدمين الفعليين.

 

وسيشمل البرنامج في مرحلته الأولى عددًا من الشركات الناشئة التي تطوّر تطبيقات قائمة على الذكاء الاصطناعي ذات أثر مباشر وفعّال. وستتعاون هذه الشركات مع فريق OpenAI على تصميم معايير التقييم وتطوير النماذج باستخدام تقنيات مثل التعلم المعزز الدقيق (Reinforcement Fine-Tuning) لتحسين الأداء في مهام محددة.

 

لكن يبقى التساؤل مطروحًا حول مدى تقبّل مجتمع الذكاء الاصطناعي لاختبارات تقييم تُطوّر بالشراكة مع OpenAI وتموَّل من قبلها، في ظل مخاوف تتعلق بالحيادية والأخلاقيات. فبينما سبق للشركة أن ساهمت في دعم جهود التقييم وأطلقت معاييرها الخاصة، قد يُنظر إلى هذا التوجّه الجديد على أنه خطوة مثيرة للجدل في مشهد الذكاء الاصطناعي المتسارع.

التعليق بواسطة حساب الفيسبوك

مقالات ذات صلة

زر الذهاب إلى الأعلى