Группа специалистов Microsoft создала технологию, позволяющую распознавать слова речи так же хорошо, как человек. Система совершает равное или меньшее количество ошибок по сравнению с профессиональными специалистами по распознаванию речи. Частота ошибочных слов в последней версии системы составила 5,9%. Для достижения равных возможностей с человеком команда исследователей использовала набор инструментов Microsoft Computational Network Toolkit.
Толчком к столь высоким результатам послужило применение нейронных моделей языка, в которых слова представлены как векторы в пространстве. Это достижение серьезно повлияет на продукты потребительского и бизнес-класса, в числе которых Xbox, приложения, преобразующие речь в текст, личные цифровые помощники типа Cortana.
Однако это достижение исследователей не означает, что компьютер идеально распознал каждое слово. Это лишь значит, что процент ошибок у компьютера и человека, слышащего тот же фрагмент речи, будет одинаковым.
Несмотря на достигнутые за последние годы крупные успехи в области распознавания речи и зрительных образов, исследователям предстоит еще много работы. Сейчас они работают над повышением эффективности распознавания в условиях, приближенных к реальным, например, в местах с сильным фоновым шумом. Они также будут работать над усовершенствованием технологии для идентификации отдельных участников разговора, если беседуют несколько человек, с учетом широкого многообразия голосов, независимо от возраста, акцента и других характеристик.
В долгосрочной перспективе исследователи сосредоточатся на том, чтобы обучить компьютер не просто распознавать акустические сигналы, исходящие из уст человека, но и понимать произносимые им слова. Таким образом, компьютеры смогут отвечать на вопросы или совершать какие-либо действия, реагируя на то, что им говорят.