Проект

"Ситимобил" использует аналитическую БД Exasol для поддержки решений при кратном росте бизнеса

Заказчики: Ситимобил

Москва; Транспорт

Продукт: Exasol

Дата проекта: 2018/04  - 2020/04
Технология: BI
подрядчики - 314
проекты - 2466
системы - 893
вендоры - 391

2020: Использование аналитической БД Exasol для поддержки решений при кратном росте бизнеса

17 мая 2020 года Консультационная группа АТК сообщила, что Ситимобил, один из сервисов для заказа такси, начал использовать аналитическую базу данных Exasol. Компания приняла такое решение, чтобы централизовать доступ к аналитике для бизнес-пользователей и поддержать принятие решений в реальном времени.

Изначально для хранения и обработки данных Ситимобил использовал связку Open Source технологий, включая MySQL, ClickHouse, Apache Airflow и Kafka. Однако в 2019 году компания начала активную экспансию в регионы и объем данных кратно вырос, превысив 30 Тб. На тот момент технологический стек для работы с данными необходимо было усилить для обеспечения оперативности и удобства работы.

Аналитическая база данных должна была стать конечной точкой доступа к данным как для бизнес-пользователей, так и для систем, которые будут обращаться за данными. В процессе выбора решения компания Ситимобил ориентировался на следующие критерии: производительность, соответствие стандарту SQL, наличие оконных функций для аналитики, совместимость с Tableau и Power BI, наличие функций, определяемых пользователем (UDF) на базе языков Java, LUA, Python. Лучшей по комплексу параметров оказалась аналитическая база данных Exasol.

«
В рамках нашего собственного тестирования Exasol превзошел остальные решения по скорости работы и масштабирования аналитики. Отдельно стоит отметить автоиндексы – они автоматически формируются на основе того, как данные используются, и минимизируют трудозатраты по оптимизации запросов. Также использование Exasol в рамках хранилища данных помогло нам сократить время для подготовки отчетности, несмотря нас растущий объем информации. В 2020 году мы планируем сохранить текущий темп роста бизнеса и ожидаем увеличение количества данных до 100 Тб,
говорит Константин Севостьянов, руководитель направления аналитической инфраструктуры Ситимобил.
»

Консультативная Группа АТК предоставила доступ и помогла интегрировать Exasol в работу компании. На май 2020 года аналитическая ИТ-инфраструктура Ситимобил включает в себя шину данных Apache Kafka, стейджинг слой на основе ClickHouse, в котором хранятся данные без предварительной обработки, и основной слой, аналитическую базу данных Exasol с обработанными данными и витринами. Также планируется хранение части стейджингового слоя в Exasol для оперативного доступа. Такая архитектура позволяет поддерживать высокую скорость получения данных из хранилища, полноту и достоверность хранимых данных, а также качественный процесс пополнения хранилища.

2018

С чего начиналась работа с данными:

Динамика объемов данных:

  • суммарный рост на 350% квартал к кварталу
  • Data Pipeline: MySQL (OLTP) to MySQL (Aggregated)
  • ETL - PHP скрипты на cron

MySQL перестал справляться с накопленным объемом

  • Оперативность данных превыше всего
  • Выбираем ClickHouse
  • ETL - bash +cron

Почему перешли от крона к airflow

  • зависимости процессов
  • мониторинг
  • автоперезапуск процессов
  • организация CI/CD
  • разделение ролей на разработку и поддержку

Запрос от бизнеса на:

  • соответствие стандарту SQL
  • оконные функции для аналитики
  • User Defined Functions
  • BI - совместимость с Tableau в том числе в Live-режиме для self-service

  • поддержка высокой скорости получения данных из хранилища;
  • поддержка внутренней непротиворечивости данных;
  • возможность получения и сравнения так называемых срезов данных (slice and dice);
  • наличие удобных утилит просмотра данных в хранилище;
  • полнота и достоверность хранимых данных;
  • поддержка качественного процесса пополнения данных.

  • Организация / разграничение доступа
  • Формирование команды DWH/BI по ролям
  • Масштабирование кластера
  • timeto market отчетности

  • в экзасоле планируется хранение части  STG для оперативного доступа
  • минимизация труда по оптимизации запросов
  • автоиндексы