نموذج صوتي جديد ينافس OpenAI وGoogle بقدرات محادثة طبيعية واستجابة فائقة

أعلنت شركة أمازون عن إطلاق نموذجها الصوتي الجديد Nova Sonic، القائم على تقنيات الذكاء الاصطناعي التوليدي، والذي يتميز بقدرته على التعامل مع الصوت بشكل مباشر وتوليد كلام طبيعي يحاكي المحادثات البشرية بدرجة عالية من الواقعية.
ووفقًا لما أوضحته الشركة، فإن أداء Nova Sonic يضاهي أقوى النماذج الصوتية الصادرة عن OpenAI وGoogle، من حيث سرعة الاستجابة، ودقة التعرف على الكلام، وجودة الحوار، بناءً على اختبارات معيارية متخصصة.
يمثل هذا النموذج استجابة مباشرة من أمازون للتطورات الكبيرة التي شهدتها النماذج الصوتية الحديثة، مثل وضع الصوت في ChatGPT، والذي تفوق من حيث السلاسة على النماذج التقليدية مثل الإصدارات الأولى من أليكسا وسيري، والتي باتت تبدو متأخرة نسبيًا في تفاعلها الصوتي.
ويُطرح Nova Sonic عبر منصة Amazon Bedrock، التي تتيح للمطورين بناء تطبيقات ذكاء اصطناعي مخصصة للمؤسسات، من خلال واجهة برمجة تطبيقات (API) جديدة تدعم البث الصوتي الثنائي الاتجاه.
وفي بيان رسمي، وصفت أمازون هذا النموذج بأنه “الأكثر كفاءة من حيث التكلفة” في السوق، حيث يقلّ سعره بنحو 80% مقارنةً بنموذج GPT-4o من OpenAI، مما يعزز من فرص تبنيه على نطاق واسع.
وأكد روهيت براساد، نائب رئيس أمازون الأول وكبير علماء الذكاء الاصطناعي العام (AGI)، أن تقنيات Nova Sonic تُستخدم حاليًا ضمن مساعد Alexa Plus المحسن، الذي أطلقته الشركة مؤخرًا.
ويتميّز النموذج بقدرته على التعامل الفوري مع الحوار، من خلال مراعاة فترات الصمت والانقطاعات، فضلًا عن توليده نصًا مكتوبًا لحديث المستخدم، مما يمنح المطورين مرونة أكبر في استخدامه داخل تطبيقات متنوعة.
كما أشار براساد إلى أن Nova Sonic يتمتع بدقة عالية في التعرف على الكلام، حتى في حالات التحدث وسط الضوضاء أو التمتمة، حيث سجّل معدل خطأ منخفضًا بلغ 4.2% وفق اختبار Multilingual LibriSpeech لتقييم الأداء عبر لغات ولهجات متعددة، منها الإنجليزية والفرنسية والإيطالية والألمانية والإسبانية.
أما في اختبار Augmented Multi Party Interaction الذي يقيس دقة التعرف الصوتي في الحوارات متعددة الأطراف ضمن بيئات ضجيج مرتفع، فقد تفوق النموذج على GPT-4o-transcribe من OpenAI بنسبة أداء بلغت 46.7%.
وسجل Nova Sonic زمن استجابة هو الأسرع في السوق حاليًا، حيث بلغ متوسط التأخير 1.09 ثانية، مقارنةً بـ1.18 ثانية لنموذج Realtime API من OpenAI، بحسب اختبارات أجرتها مؤسسة Artificial Analysis.
يأتي هذا النموذج ضمن استراتيجية أمازون طويلة المدى لتطوير الذكاء الاصطناعي العام (AGI)، الذي تعرّفه الشركة بأنه ذكاء قادر على أداء جميع المهام التي ينفذها البشر عبر الحاسوب.
واختتم براساد بالإشارة إلى خطط مستقبلية لإطلاق نماذج متعددة الوسائط قادرة على فهم الصور والفيديوهات والأصوات، إلى جانب “بيانات حسية” أخرى، مما يعزز من قدرات الذكاء الاصطناعي في تطبيقات العالم الحقيقي.
يُذكر أن هذه الخطوة تأتي ضمن توسع قسم AGI في أمازون، حيث سبق أن أطلقت الشركة نموذج Nova Act، الذي يُنفذ المهام داخل المتصفح، ويُعد من مكونات Alexa Plus، إلى جانب ميزة “اشترِ نيابة عني”، ونموذج توليد الفيديو الجديد Nova Reel.
مؤسس امازون يتربع على عرش اغنى أغنياء العالم من جديد