Speechmatics تتفوق على جوجل في التعرف على الصوت

قالت شركة بريطانية ناشئة للتعرف على الكلام إن تقنية التعرف على الصوت الخاص بها كانن أفضل من أداء شركات التكنولوجيا الكبرى مثل جوجل وأمازون في فهم أصوات الأشخاص السود.

Tech3arabi Plans

وأوضحت شركة Speechmatics أن نظامها يتمتع بمعدل دقة إجمالي يبلغ 83 في المئة للأصوات الأمريكية من أصل أفريقي.

وهذا أعلى من مايكروسوفت (73 في المئة) وأمازون (69 في المئة) وجوجل (69 في المئة) وآبل (55 في المئة)، وفقًا لبحث نشرته جامعة ستانفورد في عام 2020.

وقارن بحث جامعة ستانفورد نتائج شركات التكنولوجيا الكبرى في مدى دقة برامج التعرف على الكلام في فهم الأمريكيين الأفارقة.

علاوة على ذلك ارتكبت أنظمة أمازون وجوجل ومايكروسوفت وآبل ما يقرب من ضعف عدد الأخطاء عند تفسير الكلمات التي يتحدثها الأمريكيون من أصل أفريقي مقارنة بالبيض، وفقًا لباحثين في جامعة ستانفورد.

وتقول Speechmatics إن نظامها أخطأ في التعرف على الكلمات المأخوذة من أصوات السود بنسبة 17في المئة من الوقت، مقابل 31 في المئة لجوجل وأمازون.

وقال أليسون كوينيكي، المؤلف الرئيسي لدراسة ستانفورد: من الأهمية دراسة وتحسين الإنصاف في أنظمة تحويل الكلام إلى نص نظرًا لإمكانية حدوث أضرار متفاوتة للأفراد من خلال القطاعات النهائية التي تتراوح من الرعاية الصحية إلى العدالة الجنائية.

وأصبحت تقنية التعرف على الصوت جزء لا يتجزأ من الحياة اليومية، وذلك بفضل انتشار المساعدين الافتراضيين عبر الأجهزة الذكية مثل الهواتف ومكبرات الصوت.

وكانت شركة آبل رائدة في استخدام البرامج التي يتم تنشيطها صوتيًا عبر الأجهزة المحمولة من خلال مساعدها الرقمي سيري.

بينما كانت أمازون من أوائل الشركات التي جلبت التعرف على الكلام إلى المنزل من خلال مكبرات الصوت Echo ومساعد أليكسا.

التحيز في تقنية التعرف على الصوت

أصبح الباحثون قلقين بشكل متزايد بشأن التحيز في الخوارزميات التي تدعم خدمات التعرف على الكلام هذه.

ويقول الخبراء إن العديد من برامج التعرف على الصوت يتم تدريبها على مجموعات محدودة من البيانات، مما يجعلها أقل فعالية.

ويتعلق الأمر بجودة البيانات في مجموعات التدريب. وكان هناك تحيز عنصري وتحيز جنساني وتحيز في اللهجة الإقليمية في تقنية التعرف على الكلام لفترة طويلة. وهذه التكنولوجيا لا تعمل بالطريقة نفسها مع الجميع حتى الآن.

تقول Speechmatics إنها دربت ذكاءها الاصطناعي ببيانات غير مصنفة من وسائل التواصل الاجتماعي والبودكاست. وذلك لمساعدتها في تعلم جوانب مختلفة من الكلام بما في ذلك اللهجة واللغة.

علاوة على ذلك قالت الشركة إن تقنيتها مدربة على 1.1 مليون ساعة من الصوت. ووصفت Speechmatics التطوير بأنه يمثل اختراق.

وتأمل في أن تصبح شركات التكنولوجيا الأخرى أكثر شفافية بشأن الجهود المبذولة للحد من التحيز في الذكاء الاصطناعي.

نتيجة لذلك كثف عمالقة التكنولوجيا استثماراتهم في التعرف على الكلام مؤخرًا. ووافقت مايكروسوفت على الاستحواذ على شركة البرمجيات Nuance Communications مقابل 16 مليار دولار في شهر أبريل.

اقرأ المزيد: Google Meet تطرح أقفال جديدة للصوت والفيديو

اقرأ المزيد: طرق رفع مستوى صوت الكمبيوتر و اللاب توب

التعليق بواسطة حساب الفيسبوك

مقالات ذات صلة

زر الذهاب إلى الأعلى