Microsoft представила систему, распознающую речь не хуже человека

Группа специалистов Microsoft создала технологию, позволяющую распознавать слова речи так же хорошо, как человек. Система совершает равное или меньшее количество ошибок по сравнению с профессиональными специалистами по распознаванию речи. Частота ошибочных слов в последней версии системы составила 5,9%. Для достижения равных возможностей с человеком команда исследователей использовала набор инструментов Microsoft Computational Network Toolkit.

Толчком к столь высоким результатам послужило применение нейронных моделей языка, в которых слова представлены как векторы в пространстве. Это достижение серьезно повлияет на продукты потребительского и бизнес-класса, в числе которых Xbox, приложения, преобразующие речь в текст, личные цифровые помощники типа Cortana.

Однако это достижение исследователей не означает, что компьютер идеально распознал каждое слово. Это лишь значит, что процент ошибок у компьютера и человека, слышащего тот же фрагмент речи, будет одинаковым.

Несмотря на достигнутые за последние годы крупные успехи в области распознавания речи и зрительных образов, исследователям предстоит еще много работы. Сейчас они работают над повышением эффективности распознавания в условиях, приближенных к реальным, например, в местах с сильным фоновым шумом. Они также будут работать над усовершенствованием технологии для идентификации отдельных участников разговора, если беседуют несколько человек, с учетом широкого многообразия голосов, независимо от возраста, акцента и других характеристик.

В долгосрочной перспективе исследователи сосредоточатся на том, чтобы обучить компьютер не просто распознавать акустические сигналы, исходящие из уст человека, но и понимать произносимые им слова. Таким образом, компьютеры смогут отвечать на вопросы или совершать какие-либо действия, реагируя на то, что им говорят.