2022/06/09 15:22:40

На что способна Neoflex Datagram – российская замена IBM Infosphere, Oracle Data Integrator и других западных ETL-платформ

Задача создания системы аналитической отчетности в той или иной форме стоит перед любой организацией. С ростом масштаба бизнеса растет и сложность бизнес-процессов, и количество ИТ-систем, поэтому применение специализированной платформы для загрузки и обработки данных (ETL) становится неизбежным.

Многие российские заказчики долгое время ориентировались на решения, созданные на основе зарубежных продуктов. Однако, в этом году все поменялось радикально. Сейчас, когда часть западных компаний уже ушли или находятся в процессе ухода из России, заказчики пребывают в сложной ситуации, потому что их системы лишены поддержки, заморожено их развитие.

Сегодня на рынке представлены ряд российских ETL-платформ, которые могут надежно заместить привычные решения. Среди них выделяется платформа Neoflex Datagram от компании с многолетним опытом проектирования и внедрения хранилищ данных.

Содержание

Как реагировать компании, оставшейся без поддержки западного ETL-решения

Бизнесу, который использовал решение на базе зарубежного ETL-продукта, с одной стороны, не стоит впадать в панику и лихорадочно искать замену. С другой стороны, нельзя медлить и надеяться, что оставшееся без поддержки решение проработает долго. Приступая к выбору нового решения, нужно определиться с требованиями к нему: каковы будут источники данных, какие объемы данных планируется передавать, в каком режиме будет происходить интеграция – в пакетном (batch) или в режиме реального времени. После формирования списка требований нужно определить список из нескольких продуктов для более подробного изучения их возможностей и выбора кандидата(ов) для проведения пилотного проекта.

«
В рамках пилота от заказчика требуется совсем немного усилий: в основном они связаны с необходимостью подготовки тестового стенда и постановкой задачи для пилотного проекта. Практически весь спектр работ наши специалисты выполняют своими силами. На пилотировании системы выбираются несколько потоков данных, по работе с которыми заказчик может оценить функционал системы и ее производительность. Предварительно мы проводим воркшопы, чтобы помочь заказчику выбрать задачу, позволяющую наиболее полно оценить, насколько наш продукт соответствует его целям, – объясняет Денис Князев, менеджер продукта Neoflex Datagram.
»

Выбор архитектуры

В условиях, когда требуется ускоренное импортозамещение, оптимальным выбором будет решение, построенное на основе Open Source компонентов, с возможностью горизонтального масштабирования, обладающее высокой производительностью для работы с Big Data.

«
Решение Neoflex Datagram построено на базе компонентов с открытым исходным кодом. Для разработки трансформаций и потоков данных в нем используется Low-code подход с генерацией программного кода на языках Python или Scala. Этот код в последующем может сопровождаться и дорабатываться без использования продукта Datagram – таким образом устраняется зависимость от вендора. В качестве среды исполнения может быть выбран как дистрибутив от Neoflex, так и любой другой дистрибутив – Hadoop, что также обеспечивает большую гибкость для заказчика, – отмечает Денис Князев.
»

Рисунок 1. Состав продукта Neoflex Datagram.

Замена существующего решения

Необходимо учитывать, что замена ETL-платформы – это сложный технологический процесс, который займет не один месяц, а в ряде случаев может продлиться год и более. Залогом успеха проекта во многом выступают правильно выбранные инструменты. При их формировании важно убедиться, что они позволят закрыть все существующие требования.

Neoflex Datagram решает практически любые задачи по обработке данных. Гибкая архитектура решения позволяет использовать его как в качестве полной замены существующей ETL-платформы, так и для частичного переноса разработки.

Реализация ETL

В качестве движка для исполнения потоков данных Neoflex использует Apache Spark – фреймворк с открытым исходным кодом для обработки больших объемов данных. Для оркестрации потоков служат такие Open Source продукты, как Airflow или Apache Oozie.

«
Для разработки применяется подход визуального проектирования: разработчик с помощью мышки из богатой палитры готовых компонентов проектирует трансформации и потоки данных, на основании которых впоследствии генерируется исполняемый код на языках Python или Scala, а также описания для оркестраторов Airflow и Oozie. Эти сгенерированные артефакты и являются пакетом, описывающим потоки данных и исполняющимся в среде исполнения, – рассказывает Денис Князев.
»

За счет парадигмы визуального проектирования существенно ускоряется процесс разработки. Разработчикам здесь не надо обладать глубокими знаниями, простые трансформации могут выполнять даже специалисты с небольшим опытом.

Рисунок 2. Основные преимущества платформы Datagram.

Neoflex Datagram доступна в двух вариантах: на сервере заказчика инсталлируется дистрибутив или система загружается из маркетплейса на сервисе Яндекс.Облако. Стоимость подписки зависит от объемов потоков данных, которыми оперирует заказчик.

Neoflex обладает более чем 15-летним опытом внедрения хранилищ различного масштаба, реализует комплексные проекты по работе с данными «под ключ». Это позволяет компании не только предлагать заказчикам продукт для интеграции и обработки данных, но и помогать им строить сложные аналитические решения.

Платформой Datagram от Neoflex уже успешно пользуются компании из таких отраслей, как финансы и страхование, ритейл, производство.