ميتا تدخل سباق الذكاء الاصطناعي المتعدد الوسائط بنموذجها Chameleon

مايو 24, 2024

دقيقة واحدة

ميتا تدخل سباق الذكاء الاصطناعي المتعدد الوسائط بنموذجها Chameleon

أصدرت ميتا معاينة لنموذجها الجديد المسمى Chameleon، الذي يعد استجابة للنماذج المتقدمة من Frontier Labs، مع انتقال المنافسة في مجال الذكاء الاصطناعي التوليدي نحو النماذج متعددة الوسائط.

تم تصميم Chameleon ليكون متعدد الوسائط من الأساس، بدلاً من تجميع مكونات منفصلة بطرق مختلفة. وعلى الرغم من أن ميتا لم تطلق النموذج بعد، إلا أن التجارب الأولية تشير إلى أنه يحقق أداءً متطوراً في مهام متعددة، تشمل التعليق على الصور والإجابة على الأسئلة المرئية، مع الحفاظ على كفاءته في المهام النصية فقط.

تفتح معمارية Chameleon الباب أمام تطبيقات جديدة للذكاء الاصطناعي تتطلب فهماً عميقاً للمعلومات المرئية والنصية. يعتمد النموذج على نهج جديد في تدريب النماذج متعددة الوسائط، حيث يعالج النصوص والصور كرموز مميزة منفصلة. وعلى عكس الطرق السابقة، يستخدم Chameleon معمارية المحولات الموحدة، متخلياً عن وحدات التشفير وفك التشفير المنفصلة للطرائق المختلفة كما هو الحال في معماريات أخرى مثل Unified-IO 2.

تم تصميم النموذج ليتعلم من مزيج متشابك من الصور والنصوص والتعليمات البرمجية وغيرها من الوسائط. ويحول Chameleon الصور إلى رموز مميزة منفصلة، تماماً كما تتعامل النماذج اللغوية مع الكلمات، ويستخدم مفردات موحدة تتكون من نصوص وصور وتعليمات برمجية.

بحسب الباحثين، يعد النموذج الأقرب إلى Chameleon هو Gemini، على الرغم من أن نموذج جوجل يستخدم وحدات فك ترميز الصور المنفصلة في مرحلة التوليد، في حين يعالج Chameleon الرموز المميزة بشكل شامل ويولدها.

تم تدريب Chameleon على مرحلتين باستخدام مجموعة بيانات ضخمة تحتوي على 4.4 تريليونات رمز مميز من النصوص وأزواج الصور والنصوص والتسلسلات المتداخلة منهما. ونجحت ميتا في تدريب Chameleon المكون من 34 مليار معلمة باستخدام 10 تريليونات رمز مميز متعدد الوسائط.

وفقًا للتجارب المذكورة في الورقة البحثية، يستطيع Chameleon أداء مجموعة متنوعة من المهام النصية والمتعددة الوسائط بفعالية عالية. وقد حقق أداءً متطوراً في الإجابة على الأسئلة المرئية ومعايير التعليق على الصور، متفوقاً على نماذج مثل Flamingo وIDEFICS وLava-1.5.

يوفر Chameleon قدرات جديدة للاستدلال والتوليد المختلط الوسائط، خاصة عندما تتطلب المطالبات استجابات تتضمن تداخل النصوص والصور. وفي أحد الاختبارات، أظهر نموذج ميتا أن المقيمين البشريين يفضلون Chameleon على Gemini Pro و GPT-4V من ناحية جودة الاستجابات المختلطة للأسئلة المفتوحة، أي التي تمزج بين الصور والنصوص.

ميتا تُضيف ميزة إلى إنستجرام لمواكبة المنافسة

التعليق بواسطة حساب الفيسبوك