Apache Spark

Продукт
Разработчики: Apache Software Foundation (ASF)
Дата последнего релиза: 2016/01/04
Технологии: Средства разработки приложений

Apache Spark - фреймворк для создания проектов распределённой обработки неструктурированных и слабо структурированных данных, входит в экосистему проектов Hadoop[1].

В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, использует специализированные примитивы для рекурентной обработки в оперативной памяти, посредством чего получает преимущество в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.

Архитектура Apache Spark (2015)
Архитектура Apache Spark (2015)

Проект предоставляет программные интерфейсы для языков Java, Scala, Python, R. Написан в основном на Scala. Состоит из ядра и нескольких расширений:

  • Spark SQL (позволяет выполнять SQL-запросы над данными),
  • Spark Streaming (надстройка для обработки потоковых данных),
  • Spark MLib (набор библиотек машинного обучения),
  • GraphX (предназначен для распределённой обработки графов).

Может работать в среде кластера Hadoop под управлением YARN и без компонентов ядра Hadoop, поддерживает несколько распределённых систем хранения — HDFS, OpenStack Swift, NoSQL-СУБД Cassandra, Amazon S3.

Примечания

См. также



ПРОЕКТЫ (2) ИНТЕГРАТОРЫ (2) СМ. ТАКЖЕ (2)


Подрядчики-лидеры по количеству проектов

За всю историю
2016 год
2017 год
2018 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2016 год
2017 год
2018 год
Текущий год

  Oracle (3, 4)
  IBM (2, 3)
  Диасофт (Diasoft) (2, 2)
  Abbyy Россия (Аби) (2, 2)
  Haulmont (Хоулмонт) (2, 2)
  Другие (13, 15)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2016 год
2017 год
2018 год
Текущий год

  CUBA.platform - 2 (1, 1)
  Hyperledger Fabric - 2 (2, 0)
  IBM API Connect - 2 (2, 0)
  Java - 2 (2, 0)
  Diasoft MeNext - 2 (1, 1)
  Другие 17