**چالش بزرگ مدلهای صوتی: هوش مصنوعی صدای همه را «یکسان» نمیشنود**
تحقیقات جدید نشان میدهد که سیستمهای هوش مصنوعی تشخیص گفتار هنوز در درک لهجهها و گویشهای مختلف انگلیسی با مشکلات جدی مواجه هستند. این ضعف میتواند پیامدهای مهمی در حوزههایی مانند استخدام، آموزش، مراقبتهای بهداشتی و عدالت کیفری داشته باشد.
مدلهای تشخیص گفتار مبتنی بر هوش مصنوعی، به دلیل ناتوانی در درک لهجههای غیراستاندارد، خطاهای بیشتری در تبدیل گفتار به متن برای گروههای مختلف زبانی ایجاد میکنند. این خطاها بهویژه برای سیاهپوستان در مقایسه با سفیدپوستان بیشتر است. این مسئله میتواند منجر به اشتباهات در ثبت سوابق پزشکی، نتایج ناعادلانه در سیستم عدالت کیفری و حتی تبعیض در فرآیندهای استخدام شود.
شرکتهای فناوری مانند گوگل و OpenAI تلاش میکنند با جمعآوری دادههای صوتی متنوع و بهبود مدلهای خود، این مشکلات را کاهش دهند. برای مثال، مدل Whisper از OpenAI با استفاده از صدها هزار ساعت داده چندزبانه آموزش دیده است. با این حال، کارشناسان معتقدند که افزایش دادهها بهتنهایی کافی نیست و نیاز به نظارت و ارزیابی مستمر وجود دارد.
در نهایت، کارشناسان هشدار میدهند که نبود نظارت کافی بر این فناوریها میتواند به ایجاد شکافهای جدیدی در فرصتهای شغلی، تحصیلی و درمانی منجر شود. به همین دلیل، پیشنهاد میشود سیاستهای سختگیرانهتری برای ارزیابی و اصلاح این سیستمها اعمال شود.
