Исследователи Apple разработали новый подход к обучению больших языковых моделей (LLM), который объединяет текстовую и визуальную информацию для создания более интеллектуальных и гибких систем искусственного интеллекта. В их исследовательской статье, озаглавленной «MM1: методы, анализ и выводы из мультимодального предварительного обучения LLM», описаны результаты, показывающие, что модель MM1 устанавливает новые стандарты в способности ИИ выполнять разнообразные задачи, такие как создание подписей к изображениям, визуальные ответы на вопросы и генерация текста с высокой точностью.
Исследования в Apple сфокусированы на объединении различных типов обучающих данных и модельных архитектур, что позволяет ИИ анализировать и генерировать язык на основе как визуальных, так и лингвистических сигналов. Это особенно важно для задач, требующих понимания сложных визуальных сцен или ответов на вопросы, которые включают элементы изображений.
Документ также подчеркивает способности модели MM1 к контекстному обучению, особенно в ее наиболее крупной конфигурации, состоящей из 30 миллиардов параметров. Эта версия модели проявляет впечатляющие способности к многоэтапному рассуждению над несколькими изображениями с использованием «цепочек мыслей» из нескольких шагов, что позволяет ИИ находить сложные решения на основе ограниченных примеров.
Это исследование является частью стратегии Apple по расширению возможностей искусственного интеллекта в условиях усиливающейся конкуренции. Согласно сообщению Марка Гурмана из Bloomberg, Apple в настоящее время ведет переговоры с Google о лицензировании генеративных моделей больших языков, таких как Gemini, для внедрения новых функций в iPhone в рамках iOS 18.