IBM будет активно развивать Apache Spark

Компания IBM направит 3500 исследователей работать над Apache Spark — проектом с открытым кодом, предназначенным для обработки больших данных. Для усиления компоненты машинного обучения компания передаст в свободное пользование свою технологию SystemML. Саму систему Apache Spark специалисты IBM провозглашают операционной системой для аналитики.

Сервис Apache Spark (sparc.apache.org) ставит целью превзойти технологию MapReduce по скорости в десятки раз. На сайте демонстрируется 100-кратное превосходство над MapReduce при вычислении логистической регрессии на кластерах с использованием только оперативной памяти, и 10-кратное при использовании жестких дисков. В проекте участвует более 400 разработчиков из 50 компаний.

Кроме того, IBM намерена обучить еще тысячи специалистов из компаний-клиентов разрабатывать решения для обработки Big Data, с прицелом на данные, поступающие от m2m (то есть измеренные в реальном времени миллионами устройств) на платформе Apache Spark. При этом компания будет взаимодействовать с Databrics — коммерческой структурой, уже внедряющей Apache Spark.