آبل تكشف عن نموذج Manzano الجديد للذكاء الاصطناعي لفهم وتوليد الصور

أعلنت شركة آبل عن تفاصيل نموذج ذكاء اصطناعي مبتكر باسم Manzano، مصمم لفهم الصور وتوليدها في الوقت نفسه، وهو تحدٍ تقني معقد ظل يمثل عقبة أمام النماذج مفتوحة المصدر مقارنة بالأنظمة التجارية المتقدمة مثل تلك التي تطورها جوجل وOpenAI.

 

ويعني اسم النموذج “شجرة التفاح” بالإسبانية، ولم يُطرح بعد للاستخدام العام، ولم توفر الشركة عرضًا تجريبيًا له، مكتفية بنشر ورقة بحثية تضمنت عينات صور منخفضة الدقة لمقارنة أدائه مع نماذج مفتوحة المصدر مثل Deepseek Janus Pro وأنظمة تجارية مثل GPT-4o وGemini 2.5 Flash Image Generation المعروف أيضًا باسم “Nano Banana”.

 

تشير آبل إلى أن النماذج مفتوحة المصدر غالبًا ما تضطر للاختيار بين قوة تحليل الصور أو جودة توليدها، في حين تجمع النماذج التجارية بين المهمتين معًا. ويرجع هذا إلى طبيعة معالجة الصور، إذ يتطلب الفهم تدفقات بيانات متواصلة، بينما يحتاج التوليد إلى تقسيم الصور إلى رموز منفصلة، ما يؤدي غالبًا إلى تضارب داخل النموذج اللغوي.

 

ولتجاوز هذه المشكلة، ابتكرت آبل تصميمًا هجينًا يعتمد على مُرمّز صور مشترك يُنتج نوعين من الرموز: رموز مستمرة لتحليل الصور، ورموز منفصلة لتوليدها، ما يقلل التعارض بين المهمتين ويمنح النموذج مرونة أكبر في التعامل مع النصوص والرسوم المعقدة.

 

ويتألف Manzano من ثلاثة مكونات رئيسية: المرمّز الهجين، النموذج اللغوي الموحد، ومُفكك الصور المستقل للإخراج النهائي. وقد طورت آبل ثلاث نسخ من مُفكك الصور بأحجام تتراوح بين 0.9 و1.75 و3.52 مليارات معلمة، تدعم دقة من 256 بكسل حتى 2048 بكسل. وتم تدريب النظام باستخدام 2.3 مليار زوج من الصور والنصوص العامة والداخلية، بالإضافة إلى مليار زوج من النصوص إلى الصور، ليصل إجمالي البيانات إلى 1.6 تريليون رمز.

 

وأظهرت الاختبارات الأولية تفوق Manzano على نماذج أخرى في مهام معيارية مثل ScienceQA وMMMU وMathVista، خاصة في المهام القائمة على النصوص مثل تحليل الوثائق والرسوم البيانية. كما أظهرت نتائج القياس تحسن الأداء تدريجيًا مع تضخم حجم النموذج ليصل إلى 30 مليار معلمة.

آبل توضح أسباب تراجع البطارية المؤقت بعد تحديث iOS 26 وتطمئن المستخدمين

التعليق بواسطة حساب الفيسبوك
Exit mobile version