2024/01/31 10:34:01

Александр Орловский, ЛАНИТ: Российский рынок BI-платформ получил дополнительный мощный импульс в развитии

Сегодня на рынке российских BI-платформ происходят большие тектонические сдвиги. Вместо популярных ранее западных систем заказчики могут выбрать одну из десятков российских разработок. Однако решений, способных обеспечить работу с большими данными и предоставить инструменты самостоятельного изучения (data dicsovery) аналитикам — единицы. Об уникальном по масштабам проекте создания системы мониторинга для ЕИС Госзакупок рассказывает Александр Орловский, заместитель руководителя департамента корпоративных систем, ЛАНИТ.

Александр
Орловский
Архитекторы платформы Visiology провели большую и глубокую работу по оптимизации хранилища и движка.

Расскажите, какие процессы происходят на российском рынке BI на сегодняшний день?

Александр Орловский: Необходимость замены западных BI-платформ на российские аналоги или на доработанные open-source решения с каждым месяцем становится все более очевидной для все большего количества организаций.

Одни используют неплохо зарекомендовавший себя Apache SuperSet, другие выбирают иные решения с открытым исходным кодом, третьи лицензируют западные разработки.

В любом случае российский рынок BI-платформ получил дополнительный мощный импульс в развитии. В настоящий момент зрелость российских BI-платформ достигла уровня, когда они могут рассматриваться для масштабных корпоративных и государственных проектов.

В чем, на ваш взгляд, состоят основные ограничения российских BI-платформ?

Александр Орловский: Многие российские BI-платформы имеют ограничения по производительности. Когда практика BI подразумевает работу 10-50 пользователей с небольшими объемами данных, требования к платформе будут минимальными. Но совсем другое дело, когда счет пользователей идет на тысячи, а объемы данных — на терабайты. Далеко не каждый инструмент сейчас способен оперировать такими объемами.

Кроме того, можно сказать, что большая часть BI-платформ так или иначе ориентирована на создание простых дашбордов разработчиком или пользователем. Они отличаются лишь визуальными компонентами и способами настройки. Все это подается как преимущество и Self Service.

Но когда речь идет о корпоративных внедрениях и более сложных процессах, возникают задачи обработки данных, запросы на оптимизацию их загрузки или подключения к BI-платформе силами пользователя. Появляется потребность в проведении глубокого сценарного исследования больших объемов данных. И вот на этих двух задачах, как правило, подавляющее большинство российских платформ начинает проседать.

Image:Миграция на визиолоджи.jpg

Но ведь большинство вендоров сегодня предлагают как раз Self-Service решения…

Александр Орловский: Именно поэтому, когда мы говорим о Self-Service, нужно четко определять, о чем именно идет речь. Возможность самостоятельно собрать дашборд из стандартных компонентов — это очень хорошо и, в принципе, уже может называться Self-Service. Но поскольку ЛАНИТ занимается сложнейшими корпоративными проектами, наши заказчики обычно требуют совсем другого уровня «самообслуживания».

Например, иногда нужна возможность самостоятельно работать с моделями данных — модифицировать их, редактировать, создавать с нуля. Еще больше сложностей создает запрос на самостоятельную работу аналитиков с уникальными запросами. И только если BI-инструмент позволяет специалисту, которому нужно провести исследование данных, задать нестандартные вопросы без дополнительного программирования и SQL, его можно действительно отнести к категории Self Service с точки зрения корпоративной аналитики.

Можете ли вы привести примеры таких задач и способы их решения?

Александр Орловский: Самый показательный на сегодня пример — это реализация подсистемы мониторинга Единой информационной системы закупок (находится в ведении Федерального Казначейства). ЛАНИТ занимается разработкой и развитием всей платформы, и на сегодняшний день это действительно огромная система.

В ЕИС работают не только профильные федеральные ведомства, но и организации, деятельность которых подпадает под 44-ФЗ и 223-ФЗ, а также контролирующие органы, региональные власти.

Чтобы у участников процесса был доступ к оперативным аналитическим данным, специалистами ЛАНИТ была разработана подсистема мониторинга закупок. Она содержит более 10 терабайт сжатых и структурированных данных, а их обновление обеспечивают 200 тысяч строк кода, которые загружают информацию из ЕИС в хранилище. Около 1 терабайта данных являются «горячими», и доступ к ним регулярно получают пользователи из десятков различных организаций. Это позволяет повысить производительность системы аналитики.

Image:1-100-1_(174).jpg
Александр Орловский рассказывает об особенностях ЕИС на конференции ViRush 2023

Расскажите, как изменилась ИТ-инфраструктура вашей системы мониторинга при миграции с Oracle BI на Visiology?

Александр Орловский: Изначально система мониторинга работала на базе Oracle и Oracle BI. Если говорить про визуальные компоненты, то Oracle BI не была эталоном — здесь у российских решений есть даже некоторое преимущество. Однако с точки зрения удобства внедрения, работы с данными и производительности это был очень хороший, хотя и не самый доступный продукт.

Что бы вам не обещали маркетинговые брошюры, никакая миграция не происходит по щелчку пальцев. Здесь нам также пришлось провести достаточно большую работу. Фактически было переработано ХД, данные были перенесены в GreenPlum. На сегодняшний день это основная СУБД, которая позволяет нам накапливать информацию для дальнейшего анализа. Также был переписан код скриптов, перенесены учетные записи, настроены права доступа, что является непростой задачей, учитывая, что к системе мониторинга ЕИС имеют доступ тысячи пользователей из разных организаций.

Что можно рассказать о выборе BI-платформы? На момент принятия решения из российских инструментов лучше всего подходила Visiology, потому что она отвечала условиям, продиктованными масштабами и спецификой работы ЕИС.

В состав платформы Visiology 3 входит движок, основанный на специально оптимизированной версии СlickHouse. И это очень важно, когда речь идет о больших нагрузках, потому что именно СlickHouse позволяет организовать комфортную работу пользователей в подсистеме мониторинга. Можно сказать, что на сегодняшний день использование ClickHouse де-факто становится стандартом для высокопроизводительной обработки больших объемов данных. Наша команда изначально понимала, что на базе реляционной PostgreSQL задачи мониторинга ЕИС не решить в принципе.

Image:Архитектура_кластера.png

Для достижения нужных уровней производительности был создан кластер, причем масштабирование BI-платформы происходит полностью в штатном режиме. У нас сейчас порядка 5 тысяч пользователей, и согласно рекомендациям вендора, мы развернули 5 инстансов BI-платформы (по одному на 1000 пользователей). Благодаря этому на сегодняшний день платформа демонстрирует производительность на уровне мировых лидеров и минимальное время отклика ― жалоб со стороны пользователей на скорость работы BI нет.

Image:1-100-1_(169).jpg
Александр Орловский на конференции ViRush 2023

Кстати, если речь идет о производительности, как вы оцениваете Visiology 3?

Александр Орловский: Архитекторы платформы провели большую и глубокую работу по оптимизации хранилища и движка. Специалисты знают, что для эффективной работы с ClickHouse недостаточно просто развернуть эту базу. Нужно грамотно использовать ее возможности и учитывать ограничения. Visiology 3 не просто использует ClickHouse в качестве базы данных, как это происходит в большинстве доступных на рынке BI-платформ (как проприетарных, так и open source). В движок ViQube встроена оптимизированная версия, которая автоматически, без участия дорогих и редких специалистов по хранилищам данных создает специальные кэши, дублирует таблицы и делает другие преобразования, чтобы работать с данными можно было максимально быстро. После внедрения Visiology 3 мы сразу отметили очень высокую скорость обработки даже сложных и объемных пользовательских запросов.

Что касается производительности загрузки: когда мы пытались сделать это в лоб, закачка в ViQube всего нашего массива данных занимала несколько десятков часов. Но после диалога с вендором нам удалось оптимизировать этот процесс за счет индексирования и применения новой структуры хранения данных, сократив его до 6 часов. Насколько я знаю, в планах компании добавить функцию инкрементальной загрузки в течение 2024 года. После этого наши задачи начнут решаться еще быстрее.

То есть вы сотрудничаете с вендором для доработки платформы?

Александр Орловский: Да, у российского BI не было столько времени, ресурсов и активных клиентов, чтобы получить такое же развитие, как западные платформы. Многие продукты, даже имея потенциал, сейчас находятся фактически в стадии бета-тестирования, и Visiology в этом отношении показала более выгодные позиции, так как подготовка к запуску платформы третьей версии началась давно.

Если вы знакомы с экосистемой Visiology, то знаете, что до 2023 года все внедрения происходили на Visiology 2. Это вполне приличная корпоративная платформа, но не способная дать то, что есть в Visiology 3 — высокую скорость обработки запросов, неограниченное масштабирование и инструменты для самостоятельного изучения данных. Мы начали внедрение с Visiology 3.2, которая уже была вполне функциональной, но еще не могла решить все задачи корпоративного уровня. Часть задач нам пришлось реализовать на базе Visiology 2.

Развитие платформы идет по верной, с моей точки зрения, траектории. Значительная доля функций из релизов 3.3 и 3.4 была востребована и на нашем проекте. Мне было очень приятно отметить, что команда Visiology ориентируется на реальные запросы рынка. Вместе с нашим менеджером Платоном Луценко мы не просто получали все новейшие обновления, но наладили 100% обратную связь с командой разработки. А благодаря открытой позиции и готовности к диалогу со стороны Анастасии Галковской, владельца продукта Visiology Dashboards, удалось синхронизировать наши планы с приоритетами развития платформы. Благодаря этому получилось в кратчайшие сроки запустить нужный функционал для решения задач ЕИС, а Visiology получили возможность сразу же оценить эффективность своих обновлений на реальной задаче и больших объемах данных.