Apache Spark

Продукт
Разработчики: Apache Software Foundation (ASF)
Дата последнего релиза: 2020/05/14
Технологии: Средства разработки приложений

Содержание

Apache Spark - фреймворк для создания проектов распределённой обработки неструктурированных и слабо структурированных данных, входит в экосистему проектов Hadoop[1].

2020: Выход Apache Spark 3.0

14 мая 2020 года компания NVIDIA объявила о сотрудничестве с сообществом разработчиков ПО с открытым кодом, чтобы сообщить GPU-ускорение движку анализа и обработки больших массивов данных Apache Spark 3.0.

Со слов разработчика, с выходом Spark 3.0 специалисты по работы с данными и машинному обучению смогут применить GPU-ускорение к ETL-обработке (выборка, преобразование и загрузка), часто выполняемой с помощью операций базы данных SQL.

Apache Spark 3.0

Как отметили в NVIDIA, обучение ИИ-модели можно проводить на том же кластере Spark, не перенося процессы на отдельную инфраструктуру. Это позволяет проводить высокоскоростной анализ данных на всех этапах конвейера анализа данных, ускоряя десятки и тысячи терабайт данных - от озера данных до обучения моделей. Более того, нет необходимости изменять существующий код, используемый для приложений Spark, работающих в локальной среде и облаке.

«
«Анализ данных – это самая большая вычислительная задача, стоящая перед компаниями и исследователями. Нативное GPU-ускорение для всего конвейера Spark 3.0 — от ETL до обучения и инференса — обеспечивает производительность и масштаб, необходимые для объединения потенциала больших данных и силы ИИ»,

отметил Манувир Дас (Manuvir Das), руководитель Enterprise Computing в NVIDIA
»

Являясь стратегическим партнером NVIDIA в области ИИ, Adobe одной из первых получила доступ к Spark 3.0 на Databricks. Первая же серия тестов показала 7-кратный прирост производительности и 90% сокращение расходов, благодаря GPU-ускоренному анализу данных для разработки продуктов в Adobe Experience Cloud и поддержке возможностей, поддерживающих цифровые бизнесы.

Реклама
Ультралегкие Fujitsu LIFEBOOK для вашего бизнеса

Производительные устройства с высокой степенью защиты данных для комфортной работы как в офисе, так и дома. Ваше рабочее место всегда с вами вместе с мобильными Fujitsu LIFEBOOK

Узнать больше

Согласно заявлению разработчика, прирост производительности в Spark 3.0 повышает точность моделей, позволяя обучать их на более крупных наборах данных и чаще переобучать. Это дает возможность обрабатывать терабайты новых данных каждый день, что очень важно для специалистов, поддерживающих рекомендательные системы и анализирующих новые исследовательские данные. Кроме того, ускоренная обработка означает, что для получения результатов требуется меньше аппаратных ресурсов, а значит значительно сокращаются затраты.

NVIDIA и Databricks совместно оптимизируют Spark с помощью ПО RAPIDS для Databricks, обеспечивая GPU-ускорение для обработки данных и машинного обучения на Databricks в здравоохранении, финансах, рознице и многих других отраслях, подчеркнули в NVIDIA.

NVIDIA предоставляет RAPIDS для Apache Spark с открытым кодом, чтобы помочь специалистам увеличить производительность своих конвейеров. Ускоритель отменяет функции, ранее выполняемые на CPU, применяя GPU для следующих задач:

  • ускорение ETL-конвейеров в Spark за счет повышения производительности операций Spark SQL и DataFrame без необходимости в изменении кода;
  • ускорение подготовки данных и обучения моделей в той же инфраструктуре, без необходимости в отдельном кластере для машинного и глубокого обучения;
  • ускорение переноса данных между узлами в распределенном кластере Spark. Эти библиотеки используют открытый фреймворк Unified Communication X (UCX) Консорциума UCF и минимизируют латентность, перемещая данные напрямую в памяти GPU.

На май 2020 года предварительная версия Spark 3.0 уже доступна у Apache Software Foundation. В ближайшие месяцы будет открыт доступ к основной версии.

2016: Описание Apache Spark

В отличие от классического обработчика из ядра Hadoop, реализующего двухуровневую концепцию MapReduce с дисковым хранилищем, Apache Spark использует специализированные примитивы для рекурентной обработки в оперативной памяти, посредством чего получает преимущество в скорости работы для некоторых классов задач, в частности, возможность многократного доступа к загруженным в память пользовательским данным делает библиотеку привлекательной для алгоритмов машинного обучения.

Архитектура Apache Spark (2015)

По информации на апрель 2016 года проект предоставляет программные интерфейсы для языков Java, Scala, Python, R. Написан в основном на Scala. Состоит из ядра и нескольких расширений:

  • Spark SQL (позволяет выполнять SQL-запросы над данными),
  • Spark Streaming (надстройка для обработки потоковых данных),
  • Spark MLib (набор библиотек машинного обучения),
  • GraphX (предназначен для распределённой обработки графов).

Может работать в среде кластера Hadoop под управлением YARN и без компонентов ядра Hadoop, поддерживает несколько распределённых систем хранения — HDFS, OpenStack Swift, NoSQL-СУБД Cassandra, Amazon S3.

Примечания

См. также



ПРОЕКТЫ (4) ИНТЕГРАТОРЫ (4) СМ. ТАКЖЕ (4)


Подрядчики-лидеры по количеству проектов

За всю историю
2017 год
2018 год
2019 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2017 год
2018 год
2019 год
Текущий год

  Oracle (3, 4)
  IBM (2, 3)
  Haulmont (Хоулмонт) (2, 2)
  Диасофт (Diasoft) (2, 2)
  Abbyy Россия (Аби) (2, 2)
  Другие (14, 16)

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2017 год
2018 год
2019 год
Текущий год

  CUBA.platform - 2 (1, 1)
  Hyperledger Fabric - 2 (2, 0)
  IBM API Connect - 2 (2, 0)
  Java - 2 (2, 0)
  Diasoft MeNext - 2 (1, 1)
  Другие 18