Сотрудник «Яндекса» создал сервис для запуска нейросети на смартфоне

Исследователь из научного отдела «Яндекса» Владимир Малиновский предложил способ запускать большую языковую модель с 8 миллиардами параметров на обычных устройствах — компьютерах или смартфонах — через браузер.

Разработанный им сервис позволяет существенно снизить затраты на вычислительные мощности для работы с нейросетями.

Для реализации проекта использовалась технология сжатия AQLM, созданная совместно с университетами ISTA и KAUST летом 2024 года. С её помощью модель Llama3.1-8B была уменьшена в размере в 6 раз и теперь «весит» всего 2,5 ГБ.

После загрузки из облака модель может работать без интернета. Производительность зависит от устройства: например, на MacBook Pro M1 модель выдает скорость 1,5 токена в секунду (около 3–4 символов).

Сервис написан на языке Rust с использованием технологии WebAssembly, что позволяет запускать его в браузере. Для сжатия нейросети применяются методы AQLM и PV-tuning: первый уменьшает размер модели, а второй минимизирует потери в качестве ответов. В результате удалось сохранить около 80% точности исходной модели.

Исходный код опубликован на GitHub. Хотя проект разработан сотрудником «Яндекса», он не является официальной инициативой компании.

Источник

Поделиться с друзьями
ASTERA