علي بابا كلاود تطلق نموذجين جديدين من Qwen3 لتوليد واستنساخ الأصوات بالذكاء الاصطناعي

أعلنت شركة علي بابا كلاود عن إطلاق نموذجين جديدين من عائلة Qwen3 للذكاء الاصطناعي، مخصصين لتوليد الأصوات واستنساخها اعتمادًا على الأوامر النصية، في خطوة تهدف إلى دعم تطبيقات الصوت الاحترافية وتعزيز صناعة المحتوى الرقمي.

 

يحمل النموذج الأول اسم Qwen3-TTS-VD-Flash، ويتيح للمستخدمين إنشاء أصوات مخصصة بناءً على أوصاف دقيقة تشمل المشاعر، ونبرة الصوت، وسرعة الإلقاء. كما يمكن تحديد خصائص إضافية مثل العمر، ونوع الصوت، والأسلوب، ما يوفر مستوى عاليًا من التحكم في المخرجات الصوتية.

 

وأوضحت علي بابا أن أداء هذا النموذج يتفوق على واجهة OpenAI الخاصة بنموذج GPT-4o mini-tts الذي تم إطلاقه في وقت سابق من العام الجاري.

 

أما النموذج الثاني، Qwen3-TTS-VC-Flash، فيركز على استنساخ الأصوات، إذ يستطيع تقليد صوت أي شخص بالاعتماد على مقطع صوتي لا تتجاوز مدته ثلاث ثوانٍ فقط، مع القدرة على إعادة إنتاج الصوت نفسه بعشر لغات مختلفة. ووفقًا للشركة، يحقق هذا النموذج معدل أخطاء أقل مقارنةً بمنافسين بارزين مثل ElevenLabs و MiniMax.

 

وتتميز نماذج Qwen3 الجديدة بقدرتها على التعامل مع النصوص المعقدة، وتقليد أصوات الحيوانات، واستخراج الأصوات من التسجيلات الصوتية. وتتوفر هذه الأدوات عبر واجهة برمجة التطبيقات الخاصة بعلي بابا كلاود، إلى جانب نسخ تجريبية متاحة عبر منصة Hugging Face.

 

ويأتي هذا الإطلاق في ظل تصاعد المنافسة في سوق توليد الأصوات بالذكاء الاصطناعي، مدفوعًا بالطلب المتزايد من قطاعات الإعلانات، والألعاب، وصناعة الفيديو. كما تفتح النماذج الجديدة آفاقًا واسعة لاستخدامات متعددة، تشمل إنتاج الإعلانات الصوتية، والدبلجة متعددة اللغات، وتطوير الشخصيات الصوتية في الألعاب، ودعم منصات التعليم الإلكتروني وخدمات مراكز الاتصال، مع تقليل الوقت والتكلفة مقارنة بأساليب التسجيل التقليدية.

التعليق بواسطة حساب الفيسبوك
Exit mobile version