الذكاء الاصطناعي يتعلم باستخدام مقاطع فيديو اليوتيوب

يونيو 20, 2021

دقيقة واحدة

الذكاء الاصطناعي يتعلم باستخدام مقاطع فيديو اليوتيوب يتميز الكائن البشري بقدرته على التحليل والربط. وفهم الأحداث من خلال السياق. ويقوم بما يسمى بالتفكير متعدد الوسائط من خلال أزمان مختلفة، لفهم الماضي والحاضر والمستقبل وربطه بين الأحداث المنفصلة. على أي حال، حتى أفضل أنظمة الذكاء الاصطناعي وأكثرها تطورًا تواجه صعوبة في هذا الخصوص. لكن قد تحدث بعض التطورات التي تغير من مسار الأمور. وبدأت من فريق في معهد Allen للذكاء الاصطناعي وجامعة واشنطن لعلوم الحاسوب والهندسة.

قام الباحثون بالتفصيل بنماذج معرفة النصوص العصبية متعددة الوسائط (Merlot). وهو نظام يتعلم مطابقة الصور في مقاطع الفيديو بالكلمات، وحتى متابعة الأحداث على مستوى العالم بمرور الوقت من خلال مشاهدة ملايين مقاطع الفيديو على يوتيوب مع الكلام المنسوخ. يقوم بكل هذا بطريقة غير خاضعة للرقابة، مما يعني أنه لم يتم تصنيف مقاطع الفيديو، مما يجبر النظام على التعلم من الهياكل المتأصلة في مقاطع الفيديو.

تشكلت قدراتنا على التحليل والفهم من خلال فهمنا للنتائج، والأسباب المؤدية لظاهرة معينة. لكن يعد تعليم الآلات هذا النوع من “المعرفة النصية” تحديًا كبيرًا. ويرجع ذلك جزئيًا إلى كمية البيانات التي تتطلبها. يحاول Merlot استيعاب هذه المفاهيم من خلال مشاهدة الكثير من مقاطع اليوتيوب. بالاعتماد على مجموعة بيانات من 6 ملايين مقطع فيديو، قام الباحثون بتدريب النموذج لمطابقة الإطارات الفردية مع تمثيل سياقي لنصوص الفيديو، مقسمة إلى أجزاء. تضمنت مجموعة البيانات المحلة إلى نموذج الذكاء الاصطناعي مدونات فيديو حول نمط الحياة للأحداث اليومية ومقاطع فيديو مقترحة تلقائيًا على يوتيوب لموضوعات شائعة مثل “العلوم” و “تحسين المنزل”. كما تم اختيار هذه المواضيع بشكل خاص لتشجيع النموذج على التعرف على مجموعة واسعة من الكائنات والإجراءات و مشاهد.

التعليق بواسطة حساب الفيسبوك