Забудьте про клавиатуру: как компьютер заговорил на человеческом языке

Автор: Давид Ян, основатель компании ABBYY.

Электронного ассистента Siri люди сначала воспринимали как игрушку. Но теперь можно сказать только одно: голосовые интерфейсы — это новая технологическая революция, которая происходит на наших глазах.

Эволюция интерфейсов

Это все-таки случилось! Компьютеры вот-вот начнут говорить на человеческом языке, а холодильники будут рассказывать анекдоты и беседовать на тему здорового питания. Я имею в виду технологический тренд, набирающий силу последние годы, — conversational interfaces, голосовые-языковые интерфейсы.

Они навсегда изменят характер взаимодействия человека и устройств вокруг него. Голосовые интерфейсы будут окружать нас повсюду: дома, по пути на работу, на работе, в магазине.

По данным Google, уже 55% американских тинейджеров и 41% взрослых используют голосовые интерфейсы более одного раза в день. Для первых это так же естественно, как, например, проверить социальные сети или сделать селфи. При этом 89% подростков и 85% взрослых людей уверены, что за голосовыми интерфейсами будущее.

Я всегда был убежден, что это должно произойти. С начала 2000-х годов, когда мы в ABBYY только начинали заниматься семантическими технологиями, я говорил о том, что будущее за голосовым интерфейсом. Моя убежденность основывалась на простом понимании, что человек начал использовать язык для общения с эпохи Homo Sapiens Neanderthalensis и благодаря голосовому интерфейсу между людьми создал свою культуру, способ мышления и стал общественным существом (social animal). Небольшой период истории человечества длиной в 50 лет, начиная с 60–70 годов прошлого столетия, мы были вынуждены использовать для общения с машиной придуманный нами самими, но инородный нам по духу компьютерный язык. Просто потому, что все эти годы машина была слишком глупой, чтобы понимать язык человека.

Но мне было совершенно очевидно, что когда-нибудь, когда компьютер станет достаточно производительным, человек научит его своему, человеческому, языку, который люди используют уже сотни тысяч лет.

В конце 80-х — начале 90-х компании Apple и Xerox совершили первую революцию в истории взаимодействия человека и компьютера, открыв миру GUI (графический пользовательский интерфейс). Этот интерфейс позволил получить доступ к технологиям людям, очень далеким от компьютеров. Ведь до оконных интерфейсов существовала только командная строка на черном экране и нужно было помнить команды операционной системы наизусть. За 20 лет GUI фактически изменил мир, сегодня графические интерфейсы позволяют как бабушкам, так и трехлетним детям пользоваться ПК, планшетами и умными телефонами.

Парадокс заключается в том, что примерно в то же время 20 лет назад, когда одна лаборатория Xerox разрабатывала оконный графический интерфейс, другая лаборатория этой компании занималась голосовыми технологиями, которые получили распространение только в 2009 году. И снова Xerox и Apple совершают прорыв во взаимодействии человека и компьютера.

Электронного ассистента Siri, встроенного в мобильный телефон, люди сначала воспринимали как игрушку. Но теперь можно сказать только одно: голосовые интерфейсы — это новая технологическая революция, которая происходит на наших глазах.

Крупнейшие компании создают собственные интерфейсы на человеческом языке: Google Now, Microsoft Cortana, Amazon Echo, Facebook M. Параллельно с гигантами сотни компаний поменьше и совсем крохотных стартапов ведут разработки, связанные с conversational interfaces.

Какие это системы, что в них общего и чем они отличаются друг от друга?

Всюду помощники

Наибольшей популярностью сегодня пользуются Google Now и Siri в силу распространенности платформ, на которых они существуют: Android и iOS соответственно. Система Google Now больше направлена на то, чтобы находить нужную информацию в интернете, а Siri — на управление личными ресурсами.

Однако в ноябре 2014 года в схватку вступила компания Amazon со своим устройством Echo и электронным ассистентом Alexa. Система создана с целью управлять умным домом, отвечать на вопросы и искать информацию. Примечательно то, что Alexa умеет достаточно надежно отличать голос хозяина дома от шума вокруг и даже от других голосов. Технология уже начинает понимать не только команды, связанные с заказом товаров в интернете, но и взаимодействовать с окружающей инфраструктурой — открывать холодильники, включать свет, понимать погоду за окном и открывать шторы.

С появлением Amazon Echo, Apple Homekit и облачного сервиса для интернета вещей от Microsoft все ожидают существенного изменения поведения людей дома, особенно с учетом того, что эти системы учатся нашему расписанию, нашим привычкам и предугадывают их.

Компания SoundHound утверждает, что создала умного ассистента — более совершенного, чем Siri. Ассистент по имени Hound умеет не только выполнять поиск, но и дает ответы на сложные вопросы, понимая контекст. Пользователь может спросить, например: «Какова площадь столицы Франции?» — и система поймет, что столица Франции — Париж, и найдет ответ. Если пользователь затем спросит: «А у Токио?», то Hound поймет, что диалог продолжается в ранее заданном контексте, и ответит на вопрос. Дальше начинается соревнование, насколько глубоко система может поддерживать контекст и как долго она способна извлекать нужное.

С появлением системы Facebook M можно ожидать следующего большого скачка в возможностях языковых диалоговых интерфейсов. Facebook использует текстовые сообщения в мессенжере для тестирования системы. Создавая систему обучения диалогам, Facebook посадила в чат тысячи живых людей, которые параллельно с машиной обрабатывают каждый запрос, отвечая на вопросы пользователя. Так, например, можно через этого ассистента назначить время для прохождения экзаменов на водительские права в США. За действиями живого человека в чате следит система на базе глубинного обучения, которая учится повторяющимся паттернам, ведению диалога, тому, как люди задают вопросы и что делают после получения уточняющей информации. В результате машина обучается все большему количеству паттернов поведения и все меньше действий выполняют люди. А с учетом многомиллиардной ежемесячной аудитории Facebook у компании есть беспрецедентная возможность доступа к поведению и запросам пользователя.

Проект Say Shoping позволяет голосом заказывать товары в магазинах Target. Проект Findo, разрабатываемый ABBYY, будет давать возможность пользователям находить личные документы с помощью интерфейса на человеческом языке.

Чтобы накапливать знания, домены, области знаний и различные онтологии, компания Api.ai (ассистент Speaktoit) открыла свой интерфейс для сторонних разработчиков. Таким образом, когда одна сеть гостиниц с помощью своих инженеров обучает систему вести диалог о бронировании номеров, этот навык становится доступным для других разработчиков. То есть разные разработчики собирают в одну копилку общие навыки и пользуются чужими.

Более узкоспециальные системы типа Cubic Robotics пытаются решить проблему ведения диалога на тему отдельно взятого бытового предмета или умного дома. При этом общение даже на уровне того, как сделать потеплее в гостиной и выключить свет на кухне, когда человек уйдет, требует определенной работы. Молодой стартап, получивший прописку в Y Combinator, под названием Luka умеет вести диалог на тему рекомендаций ресторанов и заказов столиков. Интересно то, что все три молодые компании — Speaktoit, Cubic Robotics и Luka — расположены в сердце Кремниевой долины, но имеют российские корни и ведут разработки на территории России.

Подводя итог, можно сказать, что картина выглядит примерно так: игроки поменьше пытаются научить своих ассистентов конкретной узкой области и сделать их в этом экспертами. Крупные игроки типа Apple, Amazon, Google, Microsoft и Samsung видят будущее в том, что их ассистенты будут сопровождать пользователя в каждую секунду, перетекая из телефона в умные часы, из часов — в холодильник, самоуправляемый автомобиль, дрон или робот-пылесос. Они пытаются охватить все аспекты нашей жизни и нашего поведения, используя разные устройства, операционные системы на разных носителях, постоянно вступая с нами в диалог. Так ассистенты узнают все привычки пользователя и научатся понимать его с полуслова, предугадывая его потребности.

Таким образом, в будущем пользователь начнет выбирать не операционную систему, а ассистента — Cortana, Siri или другого. Этот помощник будет сопровождать человека годы, и за это время узнает все о нем. В результате пользователь уже не захочет переключиться на другого ассистента, так как его придется учить всему заново.