روبوتات جوجل الذكية تتعلم التنقل وفهم اللغة الطبيعية بفضل تقنية Gemini AI

تعمل شركة جوجل على تدريب روبوتاتها باستخدام الذكاء الاصطناعي Gemini AI بهدف تحسين قدراتها في التنقل وإكمال المهام. وقد أوضح فريق الروبوتات في شركة DeepMind في ورقة بحثية حديثة أن استخدام نافذة السياق الطويلة في Gemini 1.5 Pro، والتي تحدد كمية المعلومات التي يمكن لنموذج الذكاء الاصطناعي معالجتها، يتيح للمستخدمين التفاعل بسهولة أكبر مع روبوتات RT-2 باستخدام تعليمات اللغة الطبيعية.

شبكة تك عربي

تعمل هذه التقنية عن طريق تصوير جولة فيديو لمنطقة معينة، مثل المنزل أو المكتب، حيث يستخدم الباحثون برنامج Gemini 1.5 Pro لجعل الروبوت “يشاهد” الفيديو ويتعرف على البيئة. بعد ذلك، يمكن للروبوت تنفيذ الأوامر بناءً على ما لاحظه باستخدام مخرجات لفظية أو صورية، مثل توجيه المستخدمين إلى منفذ طاقة بعد عرض هاتف عليه وسؤاله “أين يمكنني شحنه؟”.

تشير شركة DeepMind إلى أن روبوتها المزود بنظام Gemini حقق معدل نجاح بلغ 90% عبر أكثر من 50 تعليمًا تم إعطاؤها في منطقة تشغيل تزيد مساحتها عن 9000 قدم مربع. كما وجد الباحثون “أدلة أولية” على أن برنامج Gemini 1.5 Pro مكن الروبوتات من التخطيط لكيفية تنفيذ التعليمات بما يتجاوز مجرد التوجيه. على سبيل المثال، عندما يسأل مستخدم لديه العديد من علب الكوكاكولا على مكتبه الروبوت عما إذا كان مشروبه المفضل متاحًا، يعرف البرنامج أن الروبوت يجب أن يتوجه إلى الثلاجة، ويفحص ما إذا كانت هناك علب كوكاكولا، ثم يعود إلى المستخدم لإبلاغه بالنتيجة. وتخطط شركة DeepMind للتحقيق في هذه النتائج بشكل أعمق.

وعلى الرغم من أن العروض التوضيحية بالفيديو التي تقدمها جوجل مثيرة للإعجاب، إلا أن المقاطع الواضحة بعد استجابة الروبوت لكل طلب تخفي أن العملية تستغرق ما بين 10 إلى 30 ثانية لمعالجة هذه التعليمات، وفقًا للورقة البحثية. قد يستغرق الأمر بعض الوقت قبل أن نتمكن من مشاركة منازلنا مع روبوتات رسم خرائط بيئية أكثر تقدمًا، ولكن على الأقل قد تكون هذه الروبوتات قادرة على العثور على مفاتيحنا أو محافظنا المفقودة.

تعمل شركة جوجل على تدريب روبوتاتها باستخدام الذكاء الاصطناعي Gemini AI بهدف تحسين قدراتها في التنقل وإكمال المهام. وقد أوضح فريق الروبوتات في شركة DeepMind في ورقة بحثية حديثة أن استخدام نافذة السياق الطويلة في Gemini 1.5 Pro، والتي تحدد كمية المعلومات التي يمكن لنموذج الذكاء الاصطناعي معالجتها، يتيح للمستخدمين التفاعل بسهولة أكبر مع روبوتات RT-2 باستخدام تعليمات اللغة الطبيعية.

تعمل هذه التقنية عن طريق تصوير جولة فيديو لمنطقة معينة، مثل المنزل أو المكتب، حيث يستخدم الباحثون برنامج Gemini 1.5 Pro لجعل الروبوت “يشاهد” الفيديو ويتعرف على البيئة. بعد ذلك، يمكن للروبوت تنفيذ الأوامر بناءً على ما لاحظه باستخدام مخرجات لفظية أو صورية، مثل توجيه المستخدمين إلى منفذ طاقة بعد عرض هاتف عليه وسؤاله “أين يمكنني شحنه؟”.

تشير شركة DeepMind إلى أن روبوتها المزود بنظام Gemini حقق معدل نجاح بلغ 90% عبر أكثر من 50 تعليمًا تم إعطاؤها في منطقة تشغيل تزيد مساحتها عن 9000 قدم مربع. كما وجد الباحثون “أدلة أولية” على أن برنامج Gemini 1.5 Pro مكن الروبوتات من التخطيط لكيفية تنفيذ التعليمات بما يتجاوز مجرد التوجيه. على سبيل المثال، عندما يسأل مستخدم لديه العديد من علب الكوكاكولا على مكتبه الروبوت عما إذا كان مشروبه المفضل متاحًا، يعرف البرنامج أن الروبوت يجب أن يتوجه إلى الثلاجة، ويفحص ما إذا كانت هناك علب كوكاكولا، ثم يعود إلى المستخدم لإبلاغه بالنتيجة. وتخطط شركة DeepMind للتحقيق في هذه النتائج بشكل أعمق.

وعلى الرغم من أن العروض التوضيحية بالفيديو التي تقدمها جوجل مثيرة للإعجاب، إلا أن المقاطع الواضحة بعد استجابة الروبوت لكل طلب تخفي أن العملية تستغرق ما بين 10 إلى 30 ثانية لمعالجة هذه التعليمات، وفقًا للورقة البحثية. قد يستغرق الأمر بعض الوقت قبل أن نتمكن من مشاركة منازلنا مع روبوتات رسم خرائط بيئية أكثر تقدمًا، ولكن على الأقل قد تكون هذه الروبوتات قادرة على العثور على مفاتيحنا أو محافظنا المفقودة.

Moshi روبوت محادثة ذكي يتحدى ChatGPT

التعليق بواسطة حساب الفيسبوك

مقالات ذات صلة

زر الذهاب إلى الأعلى