EMC Greenplum Database Edition

Продукт
Название базовой системы (платформы): PostgreSQL СУБД
Разработчики: Dell EMC
Дата последнего релиза: 2015/10/28
Технологии: BI,  СУБД

Содержание

2018: Интеграция с Luxms BI

В 2018 году платформа Luxms BI была интегрирована с массивно-параллельной СУБД Greenplum с открытым исходным кодом. Стыковку с СУБД Greenplum обеспечивает высокоскоростной двунаправленный FDW-коннектор. Подробнее здесь.

2015: Открыт исходный код БД Greenplum

28 октября 2015 года стало известно об открытии исходного кода базы данных Greenplum Database (GPDB), заявленной как полнофункциональное Open Source-хранилище данных (warehouse) на платформе свободной СУБД PostgreSQL[1].

Greenplum — СУБД, созданная одноименной компанией, которую в 2010 году купила EMC Corporation, а в 2013 году она перешла к Pivotal Software.

Pivotal анонсировала открытие кода GreenplumDB (GPDB) в феврале 2015 года и теперь это стало реальностью: проект получил свой сайт, исходные тексты опубликованы на GitHub под свободной лицензией Apache License v2. Greenplum обеспечивает мощную и быструю аналитику по огромным массивам данных и, как утверждают разработчики, использует «самый продвинутый в мире оптимизатор запросов на основе оценки их стоимости».

Основа GPDB - свободная СУБД PostgreSQL. Ее функциональные возможности расширены посредством:

  • архитектуры для массовой параллельной обработки данных (автоматическое распараллеливание всех данных и запросов),
  • технологии MPP для высокой производительности в масштабах петабайтов,
  • инновационного оптимизатора запросов (его аналитические возможности масштабируются на крупные наборы данных без ущерба производительности и пропускной способности),
  • полиморфного (ориентированного на столбцы или строки) хранилища и обработки данных,
  • продвинутого машинного обучения на основе библиотеки Apache MADLib.

Кластер Greenplum состоит из мастер-сервера, в котором хранятся только метаданные, и множества «сегментных» серверов, где находятся все пользовательские данные. Все серверы используют одну и ту же схему БД.

2011

EMC Greenplum Community Edition

Бесплатная версия Community Edition СУБД с обработкой с массовым параллелизмом (MPP) EMC Greenplum Database, а также бесплатные аналитические алгоритмы и инструменты интеллектуального анализа данных. Анонс продукта был сделан на конференции 2011 O'Reilly Strata Conference (1–3 февраля 2011 г.) в г. Санта-Клара, шт. Калифорния, на которой выступил Скотт Яра (Scott Yara), вице-президент подразделения EMC Data Computing Products Division. Бесплатные версии уже можно скачать по адресу: http://community.greenplum.com.

Развивая успех прежних передовых разработок Greenplum в области больших объемов данных, таких как EMC Greenplum Data Computing Appliance, новая версия EMC Greenplum Community Edition устраняет стоимостные барьеры, мешающие вооружению мощными инструментами для работы с большими массивами данных большого числа разработчиков, исследователей и других профессионалов, интересующихся операциями с данными. Этот бесплатный набор инструментов позволяет сообществу специалистов не только лучше понимать данные, получать о них более глубокое представление, добиваться лучшей визуализации, но и вносить свой вклад в разработку инструментария и решений следующего поколения. С помощью программного стека Community Edition разработчики могут создавать сложные приложения для сбора, анализа и использования больших объемов данных на новом уровне, применяя лучшие в своем классе инструменты работы с большими объемами данных, включая Greenplum Database с ее отличными возможностями аналитической обработки.Российский рынок CRM-систем: оценки, тренды, крупнейшие поставщики и перспективы. Обзор TAdviser 149 т

Бесплатная версия EMC Greenplum Community Edition включает:

  • 1) Greenplum Database CE – лидирующую в отрасли СУБД с обработкой с массовым параллелизмом (massively parallel processing, MPP) для крупномасштабной аналитики и хранилищ данных следующего поколения;
  • 2) MADlib – библиотеку аналитических алгоритмов с открытым исходным кодом, реализующих вычисления с параллельной обработкой в математических, статистических методах и методах машинного обучения для структурированных и неструктурированных данных;
  • 3) Alpine Miner – многообещающий аналитический инструментарий независимых производителей с интуитивно понятным визуальным средством моделирования интеллектуального анализа данных, который обеспечивает возможности быстрого "моделирования с оценкой" (modeling to scoring), на новом уровне использует встроенную в базу данных аналитику и специально создан для приложений для работы с большими объемами данных.

Для сообщества

Эта начальная версия EMC Greenplum Community Edition разработана как для пользователей-новичков, так и для опытных заказчиков Greenplum. Пользователи, впервые знакомящиеся с продуктом, получают доступ к полной специализированной среде бизнес-аналитики, которая позволяет им просматривать, модифицировать и совершенствовать включенные в продукт демонстрационные файлы данных, что дает возможность поэкспериментировать с аналитическими инструментами для работы с большими объемами данных в СУБД Greenplum. Пользователи, уже применяющие этот продукт, могут скачать обновленную версию Greenplum Database CE и инструменты аналитики для интеграции со своей средой разработки и исследовательскими средами.

Версию Community Edition можно скачать как виртуальную машину VMWare с уже настроенной конфигурацией и использовать ее на портативных или настольных компьютерах либо как набор пакетов для разработки на пользовательских машинах. Все пользователи могут бесплатно участвовать в новых форумах Greenplum Community Forums – получать поддержку, сотрудничать с коллегами, публиковать свои идеи и тестировать независимо разработанные разными пользователями усовершенствования.

Сроки выпуска продукта

Начиная с 1 февраля 2011 г. версию EMC Greenplum Community Edition можно бесплатно скачать с сайта http://community.greenplum.com. В онлайне также будут доступны обновления Regular Community Edition. Версия Community Edition предназначена только для экспериментальных целей, разработки и исследований. Пользователи текущего издания Single-Node Edition могут развернуть новое издание Community Edition в своей одноузловой рабочей среде. Прежде чем использовать программный код для внутренней обработки данных или в любых коммерческих либо в производственных целях, нужно купить коммерческие лицензии на Greenplum.

Modular Data Computing Appliance

В подразделении EMC Greenplum создан программно-аппаратный комплекс Modular Data Computing Appliance (в сентябре 2011 года анонсирован), который предоставляет возможность работать одновременно со структурированными и неструктурированными данными большого объема, используя как реляционные методы обработки, реализованные в параллельной СУБД Greenplum, так и функции платформы с открытым кодом Apache Hadoop. Новые устройства Modular DCA будут иметь в своем составе высокопроизводительные модули, в которых работает пакет In-Memory Analytics компании SAS Institute, выполняющий параллельную обработку данных в оперативной памяти. Использование программ SAS позволяет размещать как структурированные, так и неструктурированные данные одновременно на нескольких узлах кластера. Именно возможность параллельной обработки в компании считают основным преимуществом комплексов Greenplum. Модули сейчас проходят тестирование, а в продажу должны поступить к концу года. EMC представила также тестовый кластер Greenplum Analytics Workbench, состоящий из более чем 1000 узлов и предназначенный для проведения интеграционного тестирования программ Apache Hadoop.

СУБД EMC Greenplum Database использует параллельную архитектуру, основанную на разбиении полного массива данных на отдельные сегменты, работа с которыми может выполняться одновременно (shared-nothing massively parallel processing, MPP). Эта архитектура изначально разработана для бизнес-аналитики и аналитической обработки данных на стандартном оборудовании. Сегменты данных автоматически распределяются между несколькими серверами сегментов, каждый из которых владеет и управляет отдельной частью общего массива данных. Такая архитектура без разделяемых ресурсов (shared-nothing) означает, что все коммуникации осуществляются через сетевое межсоединение (interconnect), поэтому нет проблем общего доступа к данным на диске или конфликтов адресации. Более подробную информацию о Greenplum Database можно найти по адресу: www.greenplum.com/products/greenplum-database.

Примечания



ПРОЕКТЫ НА БАЗЕ (16) РЕШЕНИЕ НА БАЗЕ (4) СМ. ТАКЖЕ (22)
ОТРАСЛИ (6)


Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Qlik (QlikTech) (59, 464)
  Форсайт (19, 330)
  SAP SE (70, 301)
  Oracle (65, 267)
  Loginom Company (ранее BaseGroup Labs Аналитические технологии) (4, 236)
  Другие (1081, 1514)

  SAP SE (6, 13)
  Форсайт (2, 8)
  Qlik (QlikTech) (2, 8)
  Microsoft (2, 6)
  Доверенная среда (1, 5)
  Другие (47, 73)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Oracle (44, 179)
  SAP SE (6, 175)
  Microsoft (23, 142)
  PostgreSQL Global Development Group (14, 118)
  Постгрес профессиональный (ППГ, Postgres Professional) (6, 37)
  Другие (253, 201)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год