دراسة تكشف عن خلل كبير في دقة محركات البحث المعتمدة على الذكاء الاصطناعي

أصبحت أدوات البحث المعتمدة على نماذج الذكاء الاصطناعي التوليدي بديلًا شائعًا لمحركات البحث التقليدية، حيث تجذب شريحة متزايدة من المستخدمين الذين يبحثون عن المعلومات بسرعة وسهولة. ومع ذلك، كشفت دراسة حديثة أجراها مركز تاو للصحافة الرقمية التابع لجامعة كولومبيا عن وجود خلل كبير في دقة هذه النماذج، خاصةً عند استخدامها كمصدر للأخبار.

 

وأظهرت الدراسة أن نماذج الذكاء الاصطناعي، بما في ذلك تلك التي تطورها شركات رائدة مثل OpenAI وxAI، تميل إلى تلفيق القصص وتقديم معلومات غير صحيحة عند الاستفسار عن الأحداث الجارية.

 

هذه النتائج تثير مخاوف جدية بشأن دقة المعلومات، خاصة مع تزايد الاعتماد على الذكاء الاصطناعي كمصدر رئيسي للأخبار. حيث أشارت الباحثتان كلوديا يازفينسكا وأيسفاريا تشاندراسيكار في الدراسة إلى أن نحو 25% من الأمريكيين أصبحوا يستخدمون الآن نماذج الذكاء الاصطناعي كبديل لمحركات البحث التقليدية. وهذا التحول يعكس تغييرًا جذريًا في سلوك البحث عن المعلومات، مما يجعل الأخطاء التي ترتكبها هذه الأدوات أكثر خطورة. فتداول المعلومات المضللة قد يؤدي إلى تشويه الرأي العام أو اتخاذ قرارات غير صحيحة استنادًا إلى بيانات مختلقة.

 

تفاصيل الدراسة ونتائجها:

اختبر الباحثون في الدراسة ثمانية أدوات تعتمد على نماذج الذكاء الاصطناعي التوليدي المزودة بخاصية البحث المباشر، وهي: ChatGPT Search، Perplexity، Perplexity Pro، DeepSeek Search، Gemini، Grok-2 Search، Grok-3 Search، وCopilot. وتم اختبار هذه الأدوات عبر 1600 استفسار حول مقالات إخبارية حقيقية.

 

تضمنت الاختبارات تغذية النماذج بمقتطفات من مقالات إخبارية حقيقية، ثم طلب من كل نموذج تحديد عنوان المقال، والناشر الأصلي، وتاريخ النشر، ورابط المقال (عنوان URL). أظهرت النتائج أن هذه النماذج قدمت إجابات غير صحيحة لأكثر من 60% من الاستفسارات المتعلقة بالمصادر الإخبارية.

 

خلل في دقة النماذج واختلافات كبيرة في معدلات الخطأ:

تفاوتت معدلات الخطأ بين النماذج المختبرة بشكل ملحوظ. فقد سجل نموذج (Perplexity) نسبة خطأ بلغت 37%، في حين وصل معدل الخطأ في (ChatGPT Search) إلى 67%. أما (Grok-3)، فقد تصدر القائمة بمعدل خطأ بلغ 94%.

 

الميل إلى التلفيق بدلًا من الاعتراف بالجهل:

أظهرت الدراسة أيضًا ميلاً مقلقًا بين هذه النماذج لتقديم إجابات ملفقة تبدو معقولة، بدلاً من الاعتراف بعدم امتلاكها معلومات موثوقة. وقد كان هذا السلوك مشتركًا بين جميع النماذج التي تم اختبارها، مما يشير إلى وجود نمط متأصل في طريقة عمل هذه النماذج.

 

المفاجأة في أداء الإصدارات المدفوعة:

شكلت الإصدارات المدفوعة لهذه النماذج مفاجأة غير متوقعة، حيث تبين أنها كانت أكثر ميلًا لتقديم معلومات غير صحيحة مقارنة بالإصدارات المجانية. على سبيل المثال، قدمت منصة (Perplexity Pro) التي تبلغ قيمة اشتراكها 20 دولارًا شهريًا، ومنصة (Grok 3) المدفوعة التي تبلغ قيمة اشتراكها 40 دولارًا شهريًا، إجابات غير صحيحة بثقة أكبر من نظيراتها المجانية.

 

ومع ذلك، تمكنت الإصدارات المدفوعة من الإجابة بشكل صحيح على عدد أكبر من الاستفسارات، ولكن ميلها إلى تقديم إجابات غير مؤكدة أدى إلى ارتفاع معدل الخطأ الإجمالي. وهذا يشير إلى أن هذه الإصدارات قد تكون مصممة لتقديم إجابات واثقة بغض النظر عن دقتها، مما يثير تساؤلات حول مدى موثوقية هذه النماذج في تقديم معلومات دقيقة.

مايكروسوفت تكشف عن مساعد Copilot الذكي لتعزيز تجربة ألعاب Xbox

التعليق بواسطة حساب الفيسبوك
Exit mobile version