من رؤية البكسلات إلى فهم الواقع: كيف يقرّب نموذج V-JEPA الذكاء الاصطناعي من الإدراك البشري

لطالما شكّل فهم آلية عمل الدماغ البشري وبناء آلات قادرة على محاكاة الإدراك والحدس أحد أعمق طموحات الإنسان. ورغم التقدّم الكبير الذي حققته نماذج الذكاء الاصطناعي في معالجة البيانات واللغة، ظلّ هناك نقصٌ جوهري في قدرتها على استيعاب العالم المادي ببداهة، وهي قدرة يكتسبها الأطفال الرضّع بسهولة عبر الملاحظة والتجربة.

 

غير أن الأبحاث الحديثة تشير إلى تضاؤل هذه الفجوة بوتيرة متسارعة، مع ظهور نماذج قادرة على إظهار ما يشبه “الدهشة” عندما تُنتهك قوانين الفيزياء أمامها. ويُعد نموذج V-JEPA محطةً مفصلية في هذا المسار، إذ يَعِد بإحداث نقلة نوعية في مجالات الروبوتات والمركبات ذاتية القيادة، عبر تزويد الآلة بفهمٍ حدسي أقرب إلى الإدراك البشري.

 

الذكاء الاصطناعي يتعلّم بحدس الرضّع

 

في إنجاز علمي لافت، طوّر باحثو شركة ميتا نموذجًا يُظهر قدرة على استيعاب المبادئ الفيزيائية الأساسية للعالم—وهو ما يُعرف بالحدس الفطري الذي يتكوّن لدى الأطفال من خلال الملاحظة. يحمل هذا النموذج اسم V-JEPA، ويتميّز بقدرته على “التفاجؤ” عند مواجهته أحداثًا مستحيلة فيزيائيًا، مثل اختفاء جسم دون سبب، محاكيًا ردّ فعل الأطفال بعمر ستة أشهر تجاه مفهوم ديمومة الكائن.

 

ولا يعتمد النموذج على قواعد فيزيائية مُبرمجة مسبقًا، بل يتعلّم من خلال مشاهدة ملايين مقاطع الفيديو، على نحوٍ يشبه تعلّم الدماغ البشري عبر الخبرة. ووفق اختبارات ميتا، يستطيع V-JEPA التنبؤ بما سيحدث لاحقًا اعتمادًا على ما يُعرف بـالتمثيلات الكامنة (Latent Representations)، وهي مستويات تجريدية تختصر آلاف البكسلات إلى معلومات جوهرية حول الأجسام وحركتها ومواقعها. وعندما تخالف النتائج المتوقعة منطق الفيزياء، يرتفع خطأ التنبؤ بشكلٍ حاد—في سلوكٍ يُشبه إحساس المفاجأة لدى الرضّع.

 

من نمذجة البكسلات إلى فهم المعنى

 

لطالما واجه مهندسو الذكاء الاصطناعي—وخاصة في أنظمة القيادة الذاتية—تحديًا في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري. فالنماذج التقليدية اعتمدت على العمل في فضاء البكسل، حيث تُعامل كل نقطة لونية في الصورة بالقدر نفسه من الأهمية. ويؤدي هذا النهج، رغم فعاليته المحدودة، إلى إغراق النموذج بتفاصيل غير جوهرية، على حساب معلومات حاسمة مثل موقع السيارات أو لون إشارة المرور.

 

لمعالجة هذا القصور، قدّمت ميتا معمارية Video Joint Embedding Predictive Architecture (V-JEPA) في عام 2024، بهدف محاكاة أحد أهم أركان الإدراك البشري: التجريد الانتقائي. فبدل التنبؤ بقيم البكسلات المفقودة، يتنبأ النموذج بالمحتوى على مستوى أعلى من المعنى، أي عبر التمثيلات الكامنة التي تختزل المشهد إلى جوهره.

 

يعتمد V-JEPA على مشفّر يحوّل الإطارات إلى مجموعة صغيرة من القيم الرقمية التي تمثّل السمات الأساسية: الشكل، والأبعاد، والموقع، والحركة، والعلاقات بين العناصر. وبهذا، ينتقل النموذج من “رؤية” العالم إلى “فهمه”، وهو تحوّل يمنحه قدرة أعلى على التعميم والكفاءة، خصوصًا في البيئات المعقّدة.

 

ويصف كوينتن جاريدو، الباحث في ميتا، جوهر هذه القوة بقوله: “تتيح هذه الآلية للنموذج إسقاط التفاصيل غير الضرورية والتركيز على أكثر الجوانب أهمية في المشهد المصوّر، وهو هدف محوري في بناء إدراك فعّال.”

 

حين يتفاجأ النموذج كما يتفاجأ الإنسان

 

في فبراير الماضي، كشف فريق V-JEPA عن نتائج لافتة في اختبار IntPhys، المصمّم لقياس قدرة النماذج على التمييز بين الأحداث الممكنة وغير الممكنة فيزيائيًا. وحقق النموذج دقة قاربت 98%، متفوقًا بفارق كبير على النماذج التقليدية، ما يعكس انتقالًا من التعرّف البصري إلى فهمٍ سياقي أعمق للعالم.

 

ولم يكتفِ الباحثون بقياس الدقة، بل قاموا بحساب ما يُمكن تسميته “درجة المفاجأة”—أي الفارق بين ما يتوقعه النموذج وما يحدث فعليًا. وعند وقوع خروقات صريحة لقوانين الفيزياء، ارتفع خطأ التنبؤ بشكلٍ واضح، في استجابة تُحاكي الحدس البشري.

 

ويرى ميخا هيلبرون، عالم الإدراك بجامعة أمستردام، أن هذه النتائج تُثبت أن الفهم الفيزيائي البديهي قابل للتعلّم دون افتراضات فطرية مُبرمجة. في المقابل، يشير كارل فريستون، عالم الأعصاب الحاسوبي بجامعة كوليدج لندن، إلى أن التقدّم ما زال منقوصًا، لافتًا إلى غياب آلية صريحة لتمثيل عدم اليقين—وهو عنصر أساسي في الإدراك البشري حين تكون المعلومات غير كافية للتنبؤ.

 

نحو جسرٍ بين الفهم والتصرّف

 

في يونيو، أطلقت ميتا V-JEPA 2، وهو نموذج يضم 1.2 مليار معامل ودُرّب على 22 مليون مقطع فيديو. ولم تقتصر التجارب على الرؤية، بل امتدت إلى الروبوتات، حيث استُخدم النموذج لتخطيط الأفعال التالية في مهام تلاعب بسيطة، في خطوة تُشير إلى بناء جسرٍ بين الفهم والتصرّف—أحد أعمدة الإدراك الواعي.

 

ومع ذلك، لا تزال هناك حدود واضحة، خاصة في السيناريوهات الطويلة والمعقّدة، حيث تعاني النماذج من ذاكرة زمنية قصيرة تحدّ من قدرتها على بناء إدراكٍ مستمر.

 

الخلاصة: هل اقترب عصر الآلات الواعية؟

 

لا يعني ما تُظهره نماذج مثل V-JEPA ولادة وعيٍ اصطناعي بالمعنى الفلسفي الدقيق، لكنه دليلٌ واضح على تسارع محاكاة الذكاء الاصطناعي لركائز الإدراك البشري: بناء التوقعات، واكتشاف خرقها، والتعلّم من المفاجأة. إنها خطوة كبيرة نحو آلات تفهم العالم كمنظومة مترابطة، لا كسلسلة من مدخلات بصرية.

 

ويبقى السؤال اليوم ليس هل يمكن للآلة أن تقترب من هذا المسار، بل إلى أي مدى يمكن أن تبلغ هذه المحاكاة، وأين تقف حدود الوعي التي قد تلامسها الآلات في المستقبل؟

ميتا تطلق نموذج ذكاء اصطناعي يتعلم عبر الفيديوهات

التعليق بواسطة حساب الفيسبوك

مقالات ذات صلة

زر الذهاب إلى الأعلى