أعلنت جوجل عن تطوير سلسلة من النماذج اللغوية الجديدة التي تتمتع بقدرة أكبر على الإجابة بدقة عن الأسئلة المتعلقة بالحقائق الرقمية، مقارنةً بالخوارزميات السابقة. وأتاحت الشركة الشيفرة المصدرية لسلسلة DataGemma عبر منصة Hugging Face.
تم تصميم سلسلة DataGemma لتقديم إجابات دقيقة حول الأسئلة المتعلقة بالحقائق الإحصائية، مثل متوسط إيرادات الشركات في قطاعات محددة. وتعتمد السلسلة في استرجاع المعلومات على مستودع Data Commons، الذي يحتوي على أكثر من 240 مليار نقطة بيانات من مصادر موثوقة، مثل الأمم المتحدة، منظمة الصحة العالمية، ومراكز السيطرة على الأمراض، بالإضافة إلى مكاتب الإحصاء.
تستند سلسلة DataGemma إلى النموذج اللغوي الكبير Gemma 2 27B، الذي أطلقته جوجل في يونيو الماضي، ويحتوي على 27 مليار معلمة. وبحسب الشركة، فإن هذا النموذج قادر على تقديم أداء منافس للنماذج اللغوية الكبيرة التي تحتوي على ضعف عدد المعلمات.
كما أضافت جوجل أن النموذج يعتمد على إصدار محسّن من Gemma 2 27B خصيصًا لمعالجة المعلومات الرقمية. ويتمكن من التفاعل مع مستودع Data Commons عبر واجهة بحث تعتمد على اللغة الطبيعية، ما يُسهِّل على المستخدمين طرح الأسئلة دون الحاجة إلى معرفة التفاصيل التقنية لهيكلة البيانات أو واجهات برمجة التطبيقات.
تتضمن سلسلة DataGemma نسختين، كل منهما تعتمد على نهج مختلف في الإجابة على الاستفسارات. النسخة الأولى تعتمد على تقنية “التوليد المتداخل للاسترجاع” (RIG)، حيث يسترجع النموذج البيانات من مستودع Data Commons قبل توليد الإجابة باستخدام النموذج اللغوي الكبير.
أما النسخة الثانية فتستخدم تقنية “التوليد المعزز للاسترجاع” (RAG)، والتي تسترجع البيانات ذات الصلة وتستخدم نموذج Gemini 1.5 Pro لتوليد الإجابات.
وفقًا لتقرير من MIT Technology Review، حققت النسخة الأولى (RIG) من السلسلة دقة تصل إلى 58% في استرجاع الحقائق الرقمية من مستودع Data Commons، بينما وصلت دقة النسخة الثانية (RAG) إلى ما بين 80% و94%.
تسعى جوجل لتحسين سلسلة DataGemma عبر تدريبها على مزيد من المعلومات وزيادة قدرتها على الإجابة عن عدد أكبر من الأسئلة، ليتوسع نطاقها من مئات إلى ملايين الأسئلة.
ميتا تخطط لإطلاق نظارة واقع مختلط خفيفة الوزن بحلول عام 2027