Автор: Виктор Осыка, associate в венчурном фонде Almaz Capital.
Американский венчурный капиталист и один из первых инвесторов Facebook Джим Брейер явно взволнован будущим мирового рынка технологий. 90% компаний-«единорогов» (чья капитализация превышает $1 млрд) погибнут, уверен инвестор. Основатели стартапов слишком оптимистичны и потому раздувают оценки при привлечении все новых и новых венчурных раундов, говорит инвестор.
Во что сейчас инвестирует сам Брейер? Во все, что связано с технологиями deep learning — глубокого машинного обучения. В ближайшие десять лет именно эти технологии перевернут привычные нам индустрии — от медицины до развлечений. Брейер высказал все эти мысли в своей речи на Всемирном экономическом форуме в Давосе в январе 2016 года. Несколькими месяцами ранее платформа для предикативной аналитики H2O.io закрыла раунд на $20 млн и RapidMiner, стартап с похожей технологией, получил $16 млн. А меньше чем через неделю после выступления Брейера в Давосе алгоритм Google, программа AlphaGo, обыграл в го Фаня Хуэя, чемпиона Европы. Еще через два месяца AlphaGo со счётом 4:1 разгромила Ли Седоля, одного из лучших игроков го в мире. Deep Learning взял один из исторических рубежей — до побед AlphaGo считалось, что компьютеру не обыграть игрока такого уровня: слишком велик уровень абстракции и слишком много сценариев развития событий нужно перебирать. Пока СМИ обсуждали, что означает победа машин над человеком, венчурные инвесторы и разработчики искали и ищут возможности на зарождающемся рынке.
Нейронные сети — природные и искусственные
Нейрон – это узел с множеством входов и одним выходом. Нейросеть состоит из множества взаимосвязанных нейронов.Фактически это «просто» устройство, которое получает на входе данные и выдает ответы. Сперва нейронная сеть учится соотносить входящие и выходящие сигналы друг с другом — это называется обучением. А затем нейронная сеть начинает работать — она получает данные на вход, но выходящие сигналы уже генерирует на основе накопленных «знаний». Deep learning — это просто сети с большим числом слоев, так называемое глубокое обучение.
По-видимому, изначальная эволюционная задача нейронной сети была отделять сигнал от шума. «Шум» — это то, что случайно, что сложно встроить в закономерность. «Сигнал» — это всплеск (электрический, механический, молекулярный), то, что уже носит отнюдь не случайный характер.
Одной из самых простых живых нейронных сетей является мозг плоского червя, триста нейронов. Они отвечают в основном за мышечные движения. Недавно ученые полностью смоделировали (на логическом уровне, не на физическом или молекулярном) такую нервную систему, и ее поведение оказалось очень похоже на поведение настоящего червя.
Более сложные нейронные системы не просто выделяют сигнал из шума, но и, похоже, создают новые уровни абстракции в идентификации разных состояний мира вокруг. Говоря просто: в отличие от алгоритмов обычных предсказательных моделей, нейронные сети не просто учитывают факторы, обозначенные программистами, а выявляют эти факторы сами.
Пока самым продвинутым «устройством» среди нейросетей считают человеческий мозг: 100 трлн синаптических связей, упорядоченных сложнейшей архитектурой. Сегодня ученые считают, что в ближайшие полвека (прогнозы разнятся на порядок – от 10 до 100 лет) от «компьютеров на аминокислотах» (живых организмов) Вселенная сумеет шагнуть к искусственным нейронным сетям, превосходящим человеческие возможности. Такие сети описывает термин «сверхинтеллект» (superintelligence). Футуролог Ник Бостром даже написал книгу: «Сверхинтеллект: пути, опасения, стратегии». Какова будет платформа для вычислений, которая обеспечит работу «сверхинтеллекта», пока непонятно. Это могут быть чипы, квантовые компьютеры, биологические системы.
Почему сейчас происходит deep learning революция
Впервые об искусственных нейронных сетях заговорили более полувека назад, когда, исследуя нервные системы живых организмов, задумались об их имитации. Но только за последние несколько лет человечество добилось практических успехов. Почему именно сейчас мы можем сделать такие впечатляющие шаги в области? На это есть три главные причины.
Во-первых, человечество накопило (и продолжает копить) огромные массивы данных. У специалистов по машинному обучению даже есть шутка: no data — no learning. Они имеют в виду, что искусственным нейронным сетям нужны большие выборки для обучения, они должны «прокрутить» десятки тысяч итераций. Сейчас данных стало по-настоящему много – визуальных, текстовых, диалоговых, управляющих сигналов.
Во-вторых, появились технологии высокопроизводительных вычислений. Теперь мы можем быстро обсчитывать нейронные сети весом в гигабайты. Например, появились GPU-карты для работы на серверах. Они работают как графические ускорители, которые, по сути, просто складывают и перемножают матрицы, при этом они ведут параллельно множество операций. Другой пример — специальные микросхемы уже для инсталлирования непосредственно в устройства. Например, в камеры для штрафов в Москве встроены чипы, которые позволяют не отправлять данные на сервер, а сразу выслать фото нарушителю. В США есть несколько компаний, которые специализируются на таких чипах. Одну из них, Nervana, недавно купил Intel. До этого в нее вложился Стив Джурветсон, известный инвестор SpaceX и Tesla. Руководитель нашего американского офиса Джеффри Бэйер дружит со Стивом Джурветсоном – он, кстати, обычно выходит на сцену во время презентаций Илона Маска получать «Теслу» экземпляр №2. Другую компанию в этой сфере, Knupath, основал экс-глава NASA Дан Голдин. Основатели этих компаний уверены: такие микросхемы вскоре появятся в мобильной электронике, так что deep learning будет все ближе и ближе к повседневным задачам.
В-третьих, мы все лучше адаптируем знания о живых нейронных сетях к искусственным системам. Британская Deepmind, программы которой обыгрывают чемпионов го и управляют дата-центрами Google, выросла из лаборатории в области нейронаук. Через три года команда Deepmind была поглощена за $600 млн Google и теперь базируется в офисе корпорации в Лондоне. Штат вырос с 30 до 200 человек. А Демис Хассабис, один из сооснователей Deepmind, неоднократно рассказывал, как архитектура программ его компании опирается на принципы работы мозга разных животных. Сам он, поработав в индустрии игр, ушел получать докторскую степень в MIT и изучал, как работает автобиографическая память, как повреждения гипоталамуса вызывают амнезию. Руководитель Facebook AI Reasearch Ян Ле Кунн тоже видит будущее машинного обучения в дальнейшем изучении принципов функционирования живых нейронных систем и их переносе на искусственные сети. Он проводит такую аналогию: мы не пытаемся делать механических летучих мышей, а изучаем физические законы обтекания воздухом крыла и строим самолеты — тот же принцип нужно использовать и для усовершенствования нейросетей.
Получается, если раньше программисты последовательно, шаг за шагом, улучшали нейронные сети, то теперь, за счет междисциплинарных знаний о нейросетях, мы можем делать большие прорывы. Продуктовые ИТ-компании успешно расширяют внедрение нейронных сетей на самых разных рынках, и это дает задел разработчикам и архитекторам нейросетей преодолевать все новые технологические барьеры.
Что уже сделано в области deep learning?
Технологии deep learning уже вовсю применяют для решения задач компьютерного зрения. Это не только всем известное приложение Prisma — команда стартапа взяла решение годовой давности и сделала из него сервис для обработки фотографий со стилизацией под того или иного художника. Компьютерное зрение важно для развития автономных автомобилей, дронов, роботов, которые должны распознавать предметы вокруг, анализировать среду и принимать решения. Компьютерное зрение — это и автоматический анализ рентгеновских и МРТ-снимков, и подстановка лиц на Facebook, и распознавание лиц камерами. Во всех этих случаях deep learning уже помог сделать системам компьютерного зрения качественный прорыв. Сейчас дело, во-первых, за доведением этих решений до совершенства. Потому что если Facebook будет распознавать лица на фотографиях с ошибкой в 10-15%, не случится ничего страшного. А вот для беспилотных авто погрешность даже в 2-3% критична. Во-вторых, технологии компьютерного зрения на основе deep learning должны находить все практические применения. Например, в системах управления процессами, в видеонаблюдении, в промышленном моделировании. К тому же распознавание объектов компьютерным зрением найдет огромное применение в дополненной реальности (augmented reality): очки вроде Microsoft Hololens будут «смотреть на реальность» и подставлять туда необходимые действия и данные.
Другая сфера — все более «умные» и самостоятельные системы управления. Обучение с подкреплением (когда система анализирует отклик среды на свои решения и впоследствии учитывает этот опыт при принятии новых решений) становится все эффективнее и эффективнее. Deepmind начала с эмуляции игр Atari — нейронные сети позволяют системе понять правила игры и научиться играть «с нуля». Робототехнические компании с помощью deep learning учат мобильных роботов обходить препятствия, передвигаться по разному рельефу — не просто двигаться по заданному маршруту, а самостоятельно построить маршрут. А Google технологии машинного обучения (разработанные DeepMind) позволили сделать датацентры на 15% энергоэффективнее.
Системы распознавания речи с применением нейросетей стали лучше, но здесь сдвиг оказался меньше. Но это отчасти связано с тем, как изменилась среда наших разговоров. Если раньше мы говорили по телефону в офисах и дома, то теперь диалоги перенеслись на шумные улицы, в такси и метро — прогресс в распознавании речи замедлился из-за шумов, помех и просто отдаления микрофона от говорящего. На горизонте нескольких лет эти проблемы будут решены.
Где deep learning еще предстоят прорывы?
Самые большие вызовы для использования deep learning лежат в области понимания языка, ведения диалогов — системы должны научиться оперировать абстрактными смыслами, описанными семантически (все это объединяет термин «general intelligence»). К задачам в рамках general intelligence относят, например, креативный синтез чего-либо — порождение нового. Скажем, если Prisma научится придумывать новые сюжеты на основе загруженных фото, а не преображать их, — это будет огромный качественный скачок.
Пока же большие успехи в эволюции нейросетей к general intelligence удалось сделать в синтезе речи. Компания Deepmind недавно выпустила статью о WaveNet — компания научилась генерировать звуковые частоты нейронными сетями. Звучание речи просто поразительно — с тоном, дыханием, интонациями, и т. п. Качество синтеза оценивалось людьми по пятибалльной шкале. Речь WaveNet на американском английском получила 4,2 балла (человеческую речь оценили в 4,5 балла), на мандарине (северокитайском) — 4 балла (человеческая речь — 4,2 балла).
Но пока WaveNet нужно слишком много ресурсов, чтобы вывести синтез речи на уровень внедрения в системы, используемые в повседневной жизни. Чтобы получить одну минуту звука с помощью WaveNet, Deepmind нужно задействовать все свои серверы на три часа! Выходит, принципиально система работает, но нужно найти способы увеличить ее эффективность — значит, задача из научной превращается в инженерную.
Дело еще и в том, что устная речь отличается от текстовых чатов. Сегодня все системы вроде Siri переводят речь в текст для дальнейшей обработки и, наоборот, синтезируют речь из текста. В будущем машинное обучение позволит устранить «стадию текста».
В целом к задачам обработки текстов и ведения диалогов deep learning только подступается. За полвека своего развития компьютерные технологии привыкли жить по строгим правилам, заданным человеком. Нейросети могут перевернуть этот доселе незыблемый принцип с ног на голову. Поэтому первые успехи в решении задачи обработки и понимания текста, полагают многие, могут стать началом века «сверхинтелекта». Именно поэтому в настоящий момент это одна из самых амбициозных технологических задач, стоящих перед человечеством. Животные могут использовать мышцы, видеть мир глазами, а попугаи даже подражают речи, но вычленять смысл из сказанного умеют только люди, этого нет даже у обезьян. Нейросети не умеют думать, но то, что они могут научиться понимать зашифрованное в тексте и в устной речи, значит очень многое.
Что в России?
Нейросети, как универсальный инструмент выделения абстрактных смыслов, обладают огромным потенциалом для инноваций и для практических внедрений — в разных отраслях, в разных странах, для разных аудиторий. А так как в России и СНГ очень много сильных специалистов в machine learning в целом и в области deep learning в частности, для России бум технологий в этой сфере должен стать конкурентным преимуществом. В Северной Калифорнии более 5% людей русскоговорящие. На Kaggle, самой известной в мире площадке для связи тех, кто занимается анализом данных и компаний с их коммерческими задачами, русскоговорящие занимают по своей доле 4-е место среди всех 75 000 участников. Kaggle регулярно проводит соревнования по анализу данных, и именно выходцы из России и СНГ постоянно берут призовые места. Илья Суцкевер, выходец из России и выпускник университета Торонто, сегодня глава исследовательских программ в широко известном некоммерческом проекте по искусственному интеллекту Open.AI Илона Маска и прочих титанов Кремниевой долины. Руслан Салахутдинов перешел в Карнеги-Меллон (лучший в мире вуз для ИТ-специалистов), стал профессором в департаменте machine learning. Андрей Карпаты работает в Стэнфорде и тоже присоединился к исследовательской группе Open.AI. Все это легенды среди исследователей в области deep learning.
Внутри границ самой России есть лаборатория DeepHackLab в МФТИ, которая проводит международные научные хакатоны с участием специалистов из Deepmind и других компаний. Лаборатория «физтехов» единственная в СНГ и Восточной Европе получила серверный грант от Facebook за исследования в области искусственного интеллекта. И в СНГ, и за рубежом появляются компании в области deep learning, опирающиеся на российские корни. Десятки и сотни компаний разрабатывают все новые применения методов машинного обучения, которые могут перевернуть устройство всех привычных нам рынков. Российские компании и инвесторы точно примут участие в этой происходящей революции.