روبوتات الذكاء الاصطناعي قادرة على هزيمة البشر في لعبة Dota 2

يونيو 27, 2018

4 دقائق

روبوتات الذكاء الاصطناعي قادرة على هزيمة البشر في لعبة Dota 2

أعلن معهد OpenAI عن آخر إنجاز له، والذي يتمثل بفريق من روبوتات الذكاء الاصطناعي الذين بإمكانهم التغلب على أفضل اللاعبين العالميين في لعبة المعارك الشهيرة دوتا Dota 2، ويبدو أن كبار الأكاديميين وشركات التكنولوجيا تريد تحدي البشر ضمن ألعاب الفيديو بعد أن أصبحت هزيمة البشر في ألعاب الطاولة أمر شائع في عالم الذكاء الاصطناعي.

ويعتبر OpenAI الواقع مقره سان فرانسيسكو بمثابة معهد أبحاث مستقل غير ربحي تأسس عام 2015 بهدف تطوير الذكاء الاصطناعي ومنع التكنولوجيا من التحول إلى شكل خطير على البشر، وهو مدعوم من قبل إيلون ماسك Elon Musk وسام ألتمان Sam Altman وريد هوفمان Reid Hoffman وبيتر ثيل Peter Thiel وغيرهم من خبراء التكنولوجيا.

وكان معهد OpenAI قد توغل لأول مرة في لعبة Dota 2 في شهر أغسطس/آب الماضي عندما كشف النقاب عن نظام يمكنه التغلب على اللاعبين الكبار في المباريات الفردية، إلا أن هذا النوع من المباريات الفردية يقلل إلى حد كبير من تحدي Dota 2، مما دفع OpenAI إلى تحديث روبوتات الذكاء الاصطناعي الخاصة بالنظام من أجل اللعب مع البشر ضمن مباريات تتضمن 5 لاعبين مقابل 5 لاعبين، حيث تتطلب مثل هذه المباريات متعددة اللاعبين مزيدًا من التنسيق والتخطيط على المدى الطويل.

وتستعد هذه الروبوتات المطورة من قبل معهد OpenAI لمواجهة العنصر البشري في شهر أغسطس/آب القادم، حيث ينتقل بعض أفضل اللاعبين المحترفين في العالم إلى مدينة فانكوفر للتنافس من أجل الحصول على ملايين الدولارات في مسابقات الألعاب الإلكترونية الأكثر قيمة في العالم، حيث تعد هذه المسابقة أكبر حدث سنوي في تقويم الرياضات الإلكترونية.

وتستضيف مدينة فانكوفر الكندية بطولة العالم السنوية The International للعبة Dota 2، حيث تبلغ قيمة الجائزة أكثر من 15 مليون دولار، مما يجعلها تتفوق من حيث القيمة على قيمة جائزة بطولة الماسترز للجولف البالغة 11 مليون دولار، ويحاول فريقان مؤلفان من خمسة أشخاص تدمير قواعد بعضهم البعض.

وكشف OpenAI أن النظام الجديد المسمى OpenAI Five لعب في شهر يونيو/حزيران مباريات متعددة اللاعبين ضد خمس مجموعات، بما في ذلك فريق من موظفي OpenAI وفريق من أعضاء الجمهور الذين شاهدوا مباراة موظفي OpenAI وفريق عمل Valve وفريق هواة وفريق شبه محترف، حيث فازت الروبوتات بسهولة على الفرق الثلاثة الأولى في عدة جولات، وفازت في اثنتين من المباريات الثلاث الأولى ضد الفريقين الرابع والخامس.

كما تعلم النظام أثناء اللعب تقنيات جديدة مثل تجنب المقذوفات وإعطاء الأبطال قدرًا كبيرًا من نقاط الخبرة المبكرة، ويعتبر الدافع وراء مثل هذه الأبحاث هو إثبات أنه في حال كان بإمكاننا تعليم أنظمة الذكاء الاصطناعي المهارات المطلوبة للعب ألعاب الفيديو، فإنه بإمكاننا استخدامها لحل تحديات العالم الواقعي المعقدة التي تشبه في بعض النواحي ألعاب الفيديو مثل إدارة البنية التحتية للنقل في المدينة.

وتقدم ألعاب الفيديو تحديات لا توفرها ألعاب الطاولة مثل الشطرنج، حيث إنها تخفي معلومات من اللاعبين، بمعنى أن الذكاء الاصطناعي لا يمكن أن يدرك حقل اللعب بأكمله ويحسب أفضل خطوة تالية ممكنة، وهناك أيضًا مزيدًا من المعلومات المطلوبة للمعالجة وعدد كبير من التحركات المحتملة، ووفقًا لمعهد OpenAI فإنه ينبغي على روبوتات الذكاء الاصطناعي الخاصة بهذه اللعبة أن تختار ما بين ألف إجراء مختلف أثناء معالجة 20 ألف نقطة بيانات تمثل ما يحدث في اللعبة.

واعتمد المختبر طريقة التعلم الآلي المعروفة باسم التعلم التعزيزي من أجل إنشاء برامج التتبع الخاصة بهم، بحيث تعتبر تقنية التعلم التعزيزي تقنية بسيطة مخادعة قادرة على إنتاج سلوك معقد، ويتم وضع روبوتات الذكاء الاصطناعي ضمن بيئة افتراضية حيث يعلمون أنفسهم كيفية تحقيق أهدافهم من خلال التجربة والخطأ، في حين يقوم المبرمجون بتحديد ما يسمى بوظائف المكافآت، أي منح الروبوتات نقاط على أشياء مثل قتل العدو، ومن ثم يتم ترك الروبوتات تلعب مع نفسها بشكل مستمر.

وكشفت المعلومات عن أرقام مذهلة حول اللعب بشكل ذاتي من قبل الروبوتات، إذ تمكنت الروبوتات يوميًا من اللعب لمدة تصل إلى 180 سنة من وقت اللعبة بمعدل متسارع، وتدربت بهذه السرعة على مدى أشهر، حيث تبدأ الروبوتات اللعب بشكل عشوائي تمامًا، ومن ثم تتجول ضمن الخريطة، وبعد بضع ساعات تبدأ في الحصول على المهارات الأساسية، وفي حال كان الإنسان يستغرق ما بين 12 و 20 ألف ساعة من اللعب ليتعلم كيف يصبح محترفًا، فإن الروبوتات تلعب 100 تجربة حياة بشرية كل يوم.

ويتعين على روبوتات الذكاء الاصطناعي التعامل مع آفاق زمنية طويلة بشكل مستمر، إذ بدلاً من تواجد بضع مئات من التحركات في ألعاب الطاولة مثل الشطرنج، فإن هناك أكثر من 80 ألف إطار فردي في اللعبة، وعندما تتخذ إجراءً معين، فإن العديد من الإجراءات تتبع ذلك الإجراء بشكل تدريجي.

وتعتبر هذه الأرقام دليلًا على قوة أساليب التعلم الآلي المعاصر وقدرة أحدث رقاقات الحاسب على معالجة كميات هائلة من البيانات، إلى جانب كونها دليل على أن الذكاء الاصطناعي قادر على تقليل الوقت اللازم لتعلم ما يحتاج البشر إلى تعلمه خلال آلاف السنين، حيث يعتمد OpenAI Five على نظام موزع مكون من 256 بطاقة معالجة رسوميات Nvidia Telsa P100 و 128 ألف نواة معالجة مركزية.

ويشير معهد OpenAI إلى وجود بعض القيود فيما يخص لعبة Dota 2، حيث أن الروبوتات تلعب باستخدام 5 شخصيات فقط من أصل 115 شخصية متاحة لكل منها أسلوبه الخاص في اللعب، كما أن بعض عناصر عملية صنع القرار الخاصة بهم يتم ترميزها مثل العناصر التي يشترونها والمهارات التي يستفيدون منها باستخدام نقاط الخبرة في اللعبة، بالإضافة إلى تعطيل أجزاء أخرى صعبة من اللعبة بشكل كامل، بما في ذلك الإخفاء والاستدعاء.

وتمتلك روبوتات الذكاء الاصطناعي المطورة من قبل OpenAI جميع المزايا التي يمكن توقعها من جهاز حاسب، إذ إن أوقات رد الفعل أسرع من البشر، بحيث انهم لا يفوتون أي نقرة، كما لديهم إمكانية الوصول الفوري والدقيق إلى البيانات مثل قوائم الجرد وصحة الأبطال والمسافة بين الأشياء على الخريطة، وهي أنواع من المعلومات التي ينبغي على اللاعبين البشريين التحقق منها يدويًا أو الاعتماد على الغريزة البشرية.

ويقول أندرياس ثيودورو Andreas Theodorou، الباحث في الذكاء الاصطناعي بجامعة باث Bath، والذي يستخدم ألعاب الحاسب لدراسة التعاون، إن أحدث الأبحاث التي أجريت على الألعاب تعد بمثابة خطوة كبيرة إلى الأمام، حيث توضح هذه التقنيات كيف يمكن لتقنيات التعلم التعزيزي وأنظمة التعلم الآلي أن تكون شفافة بشكل عام.

وأضاف أن استخدام الباحثين لوظيفة المكافأة المنفصلة لتشجيع الروبوتات على العمل معًا كان ملحوظًا أيضًا، إذ بالرغم من أن الروبوتات تبدأ في كل لعبة بالسعي لتحقيق أهداف فردية، ولكن مع مرور الوقت، فإنها تركز أكثر على الأهداف المشتركة، وخلافًا للاعبين البشريين فإن هذا يعني أن تفضيل الذات معدوم على الإطلاق، حيث أن الروبوتات مستعدة تمامًا للتضحية بمسار أو التخلي عن بطل من أجل الصالح العام.

تجدر الإشارة إلى أن نظام OpenAI Five ليس أول نظام ذكاء اصطناعي يهزم خصمه البشري في الألعاب المعقدة، إذ حققت الشبكة العصبونية العميقة AlphaZero، التي طورتها شركة DeepMind التابعة لألفابت، مستوى من اللعب فوق مستوى البشر في لعبة الشطرنج و shogi و Go، في حين تمكن نظام الذكاء الاصطناعي Liberatus المطور من قبل جامعة كارنيجي ميلون Carnegie Melon من تحقيق آلاف الدولارات الوهمية في سلسلة ألعاب استمرت لمدة شهر مع أفضل لاعبي البوكر المحترفين.