حين يتعلم الذكاء الاصطناعي الدهشة: V-jepa وخطوة جديدة نحو إدراك يشبه الإنسان
لطالما شكّل فهم آلية عمل الدماغ البشري، وبناء آلات قادرة على محاكاة الإدراك والحدس، أحد أعمق طموحات الإنسانية. ورغم التقدم الهائل الذي حققته نماذج الذكاء الاصطناعي في مجالات معالجة البيانات واللغة، بقيت فجوة جوهرية تفصلها عن الإنسان: الفهم البديهي للعالم المادي، ذلك الفهم الذي يكتسبه الأطفال الرضّع تلقائيًا عبر الملاحظة والتجربة.
إلا أن أبحاثًا حديثة تشير إلى أن هذه الفجوة بدأت تضيق بوتيرة متسارعة. فقد ظهرت نماذج قادرة على إظهار ما يشبه «الدهشة» عندما تُنتهك القواعد الفيزيائية أمامها، أي عندما تواجه أحداثًا غير منطقية. ويُعد نموذج V-JEPA من شركة «ميتا» خطوة محورية في هذا المسار، إذ يَعِد بإحداث تحول نوعي في مجالات مثل الروبوتات والمركبات ذاتية القيادة، عبر تزويد الذكاء الاصطناعي بفهم أكثر فطرية للعالم.
الذكاء الاصطناعي بحدس الأطفال الرضّع
في إنجاز علمي لافت، طوّر باحثو «ميتا» نموذجًا للذكاء الاصطناعي يُظهر قدرة على استيعاب المبادئ الفيزيائية الأساسية، أو ما يُعرف بالحدس الفطري، وهو النوع من الفهم الذي يكوّنه الأطفال الرضّع من خلال مراقبة العالم من حولهم. ويتميّز هذا النموذج، المعروف باسم V-JEPA، بقدرته على «التفاجؤ» عند مواجهته أحداثًا مستحيلة فيزيائيًا، مثل اختفاء جسم فجأة دون سبب واضح، في محاكاة قريبة من ردود فعل الأطفال بعمر ستة أشهر عند انتهاك مبدأ ديمومة الكائن.
ولا يعتمد V-JEPA على قواعد فيزيائية مبرمجة مسبقًا، بل يتعلّم عبر مشاهدة ملايين مقاطع الفيديو، على نحو يشبه تعلّم البشر من التجربة. وخلال الاختبارات، أظهر النموذج قدرة على التنبؤ بما سيحدث في المشاهد اعتمادًا على ما يُعرف بـ«التمثيلات الكامنة» (Latent Representations)، وهي مستويات تجريدية تختصر آلاف البكسلات في معلومات جوهرية حول الأجسام وحركتها ومواقعها. وعندما تخالف الأحداث المستقبلية هذه التوقعات المنطقية، يرتفع خطأ التنبؤ بشكل حاد، في ما يشبه شعور المفاجأة لدى الرضّع.
من فضاء البكسل إلى فضاء المعنى
لطالما واجه مهندسو الذكاء الاصطناعي، خصوصًا في أنظمة القيادة الذاتية، تحديًا أساسيًا يتمثل في تمكين الآلة من فهم العالم المرئي بموثوقية تضاهي الإدراك البشري. فعلى مدى سنوات، اعتمدت نماذج تحليل الفيديو على ما يُعرف بـ«فضاء البكسل»، حيث يُتعامل مع كل نقطة لونية في الصورة بالقدر نفسه من الأهمية.
غير أن هذا النهج يعاني قصورًا بنيويًا، إذ يُغرق النموذج في تفاصيل ثانوية غير جوهرية، مثل تغيّر الظلال أو حركة أوراق الشجر، على حساب عناصر حاسمة كإشارات المرور أو مواقع المركبات. ونتيجة لذلك، تتراجع كفاءة الفهم وسرعة اتخاذ القرار.
ولمعالجة هذا القصور، طوّرت «ميتا» معمارية Video Joint Embedding Predictive Architecture (V-JEPA)، التي أُطلقت عام 2024 بهدف محاكاة أحد أهم مبادئ الإدراك البشري: التجريد الانتقائي. فبدل التنبؤ بقيم البكسلات المفقودة في إطارات الفيديو، يعمل النموذج على التنبؤ بالمعنى الكامن وراء المشهد، عبر تمثيلات عالية المستوى تختصر جوهر الأجسام والعلاقات والحركات.
ويعتمد V-JEPA على مُشفِّر يحوّل الإطارات المرئية إلى مجموعة محدودة من القيم الرقمية التي تمثل السمات الأساسية للمشهد، مثل الشكل والموقع والحركة والعلاقات المكانية. وبهذا، يتعامل النموذج مع «جوهر المشهد» بدل تفاصيله السطحية، على نحو يقارب طريقة عمل الدماغ البشري.
ويؤكد باحثو «ميتا» أن هذه القدرة على تصفية الضوضاء والتركيز على المعلومات الأكثر أهمية تمنح النموذج قوة كبيرة في التعميم، ودقة أعلى في فهم مشاهد جديدة، وكفاءة ملحوظة في البيئات المعقّدة.
محاكاة الحدس… عندما يتفاجأ النموذج
في فبراير الماضي، كشف فريق V-JEPA عن نتائج لافتة في اختبار IntPhys، المصمم لقياس قدرة النماذج على التمييز بين الأحداث الممكنة وغير الممكنة فيزيائيًا داخل الفيديوهات. وحقق النموذج دقة قاربت 98%، متفوقًا بفارق كبير على نماذج الرؤية التقليدية التي بالكاد تجاوزت مستوى التخمين العشوائي.
ولم تقتصر التجارب على قياس الدقة فقط، بل امتدت إلى رصد ما يمكن تسميته «درجة المفاجأة» لدى النموذج، عبر حساب الفارق بين ما يتوقعه وما يحدث فعليًا. وعند حدوث خروقات صريحة لقوانين الفيزياء، ارتفع خطأ التنبؤ بشكل حاد، في استجابة تشبه إلى حد بعيد رد فعل الأطفال الرضّع عند انتهاك توقعاتهم الفطرية عن العالم.
ويرى باحثون في علم الإدراك أن هذه النتائج تقدّم دليلًا قويًا على أن الفهم الفيزيائي البديهي يمكن أن يُكتسب بالتعلّم، دون الحاجة إلى افتراض قواعد فطرية مبرمجة مسبقًا. ومع ذلك، يشير آخرون إلى أن الطريق لا يزال طويلًا، إذ يفتقر النموذج حتى الآن إلى آليات صريحة لتمثيل عدم اليقين، وهو عنصر أساسي في الإدراك البشري.
V-JEPA 2… من الفهم إلى الفعل
في يونيو الماضي، كشفت «ميتا» عن V-JEPA 2، وهو إصدار أكثر تطورًا يضم 1.2 مليار معامل، ودُرِّب على 22 مليون مقطع فيديو. ولم يقتصر استخدامه على الرؤية فقط، بل امتد إلى مجال الروبوتات، حيث استُخدم لتخطيط الأفعال التالية في مهام تلاعب بسيطة، في خطوة تشير إلى جسر آخذ في التشكّل بين الفهم والإجراء.
ومع ذلك، تكشف اختبارات أحدث مثل IntPhys 2 عن حدود واضحة لهذه النماذج، خاصة عند التعامل مع سيناريوهات أطول وأكثر تعقيدًا، إذ لا تزال الذاكرة الزمنية القصيرة تشكّل عائقًا أمام إدراك مستمر ومتكامل.
هل نقترب من عصر الآلات الواعية؟
ما تُظهره نماذج مثل V-JEPA لا يعني ولادة وعي اصطناعي بالمعنى الفلسفي الدقيق، بل يعكس تسارعًا ملحوظًا في محاكاة الركائز الأساسية للإدراك البشري، مثل بناء التوقعات المنطقية، واكتشاف ما يخرقها، والتعلّم من عنصر المفاجأة.
إنها خطوة كبيرة نحو آلات قادرة على فهم العالم بوصفه منظومة مترابطة، لا مجرد سيل من المدخلات البصرية. ومع ذلك، تظل هذه النماذج بعيدة عن امتلاك تجربة ذاتية أو وعي إنساني حقيقي. ولهذا، لم يعد السؤال المطروح اليوم هو هل يمكن للذكاء الاصطناعي أن يسلك هذا الطريق، بل إلى أي مدى يمكن أن تبلغه هذه المحاكاة، وما الحدود التي قد يلامسها وعي الآلة في المستقبل.







