AI DeepMind читает по губам лучше человека

DeepMind компании Google в сотрудничестве с учеными Оксфордского университета создал новый сервис искусственного интеллекта, который может читать по губам, назвав его «Смотри, Слушай и Произноси» (WLAS). Разработанный сервис может правильно интерпретировать больше слов, читая по губам, чем обученный профессионал, пишет ITPro.


При проверке с использованием 200 одинаковых случайно выбранных клипов профессиональный чтец по губам правильно разобрал 12,4% слов за выделенный промежуток времени, в то время как WLAS показал степень точности 46,8%.


Система была обучена с помощью набора данных из 118 000 различных предложений (17 500 слов), на что ушло 5000 часов видео от BBC. Видео BBC были подготовлены с использованием алгоритмов машинного обучения, и AI также учился преобразовывать видео и аудио, когда они не синхронизированы.


Ранее в этом месяце Оксфордский университет опубликовал аналогичную научно-исследовательскую работу о тестировании программы чтения по губам под названием LipNet. Степень точности LipNet составила 93,4%, по сравнению с 52,3% для обученного профессионала на одинаковом материале. Однако LipNet проверялась на видео, где добровольцы произносят шаблонные фразы, с набором данных всего в 51 слово, тогда как WLAS тестировался на гораздо большем диапазоне данных, судя по фактическим диалогам на BBC.


Существуют различные возможности применения этой технологии чтения по губам. Такие функции AI, как WLAS, могут улучшить качество живых субтитров и обеспечат лучшую поддержку людей с нарушениями слуха. WLAS также можно интегрировать в такие виртуальные помощники, как Siri, что позволит использовать камеру телефона для чтения по губам, лучше понимая слова пользователей даже в людной или шумной обстановке.

Поделиться с друзьями
ASTERA