2025/08/24 22:32:48

Евгений Вилков, Data Sapience: Data Ocean Nova — единственная в РФ универсальная Lakehouse-платформа с промышленными внедрениями

Российская Lakehouse-платформа Data Ocean Nova используется в «Магните», «Ленте», «Альфа-банке» и других крупнейших компаниях страны. Какие технологические решения стоят за этим успехом? За счет чего платформа работает в два раза быстрее open source решений и успешно конкурирует с Greenplum, Teradata и Oracle даже за пределами России? И почему ее создатели, команда вендора Data Sapience, уверены, что архитектура Lakehouse останется актуальной? Ответы — в интервью с Евгением Вилковым, техническим руководителем Data Ocean Nova и Data Ocean Flex Loader.

Евгений
Вилков
Для ритейла наша Lakehouse-платформа стала рыночным стандартом.

Как появилась идея создания собственной платформы данных? Что стало отправной точкой?

Евгений Вилков: Все началось с пандемии. Мы работали под крылом крупного интегратора — GlowByte, и пока клиенты перестраивали свои процессы на удаленный формат, у нас появилась возможность больше уделять времени исследовательской работе. Это дало редкую возможность сфокусироваться на R&D и переосмыслении того, как устроен рынок больших данных и что мы сможем в будущем ему предложить.

К тому моменту мы уже много лет занимались аналитикой, хранилищами данных, ML-платформами и все чаще сталкивались с запросом на универсальное, масштабируемое решение, способное объединить гибкость Data Lake с мощью Data Warehouse. Стали изучать, что предлагают российские и зарубежные облачные платформы, потому что уже тогда было понятно: спрос на облака будет только расти. Быстро выяснилось, что в России готовых решений нет. Обсуждали коллаборации с вендорами и облачными провайдерами, но, к сожалению, не нашли понимания.

В итоге появилась идея создать собственную универсальную платформу, которая работала бы и в публичных облаках, и на площадках клиентов. Российский рынок консервативен в вопросах выноса данных в облако, поэтому гибридный режим стал ключевым требованием. Первый прототип мы собрали достаточно быстро, и с 2021 года начали полноценную разработку.

Что из себя представляет Data Ocean Nova сегодня?

Евгений Вилков: Data Ocean Nova — универсальная Lakehouse-платформа из линейки Data Ocean вендора Data Sapience, которая объединяет лучшие свойства Data Warehouse и Data Lake. Она решает весь спектр задач управления и обработки данных: от построения хранилищ до вычислительной поддержки CRM- и ML-систем, от real-time обработки до реализации Data Mesh.

Сегодня Data Ocean Nova используется как real-time data hub, классическое хранилище, озеро данных и вычислительная платформа для машинного обучения. Именно это и определяет концепцию универсальности платформы: Data Ocean Nova поддерживает вариативность движков и вспомогательные сервисы обслуживания для решения всех задач без дополнительных доработок и проектных решений сбоку. Мы видим, что другие игроки, которые только начинают заходить в сегмент Lakehouse, чаще делают ставку на упрощенную архитектуру. Это с большой вероятностью делает их решения узкоспециализированными.

Как вы оцениваете зрелость Data Ocean Nova на фоне российских и зарубежных аналогов? На каком этапе развития находится платформа?

Евгений Вилков: Data Ocean Nova — это единственная универсальная Lakehouse-платформа как продукт на российском рынке с реальными промышленными внедрениями. Мы долго вызревали и не выводили платформу в публичное поле, пока не убедились в готовности рынка принять наше решение через первые промышленные успешные истории внедрения.

Сейчас у нас более десятка внедрений, включая крупные компании вроде «Магнита» и «Альфа-Банка». Мы не просто говорим, что можем заменить Greenplum, Teradata или Oracle, — у нас есть кейсы, где это уже реализовано. Причем не просто заменить по функциональности, но и с меньшей стоимостью владения.

В дополнение к Lakehouse-платформе в линейке продуктов Data Ocean есть и интеграционные инструменты: SDI (потоковая обработка и онлайн-загрузка данных) или Flex Loader (пакетная репликация данных).

Расскажите подробнее, какие задачи решает Data Ocean Flex Loader.

Евгений Вилков: Flex Loader — это инструмент для быстрой и надежной загрузки данных в новое хранилище. Особенно он полезен при миграции: позволяет быстро и качественно перенести данные, отследить изменения, обеспечить доверительную репликацию и начать пользоваться платформой данных за считанные дни. При этом решение гарантирует контроль качества, автоматическую сверку и возможность сохранения истории изменений источника на стороне приемника.

Инструмент умеет работать и с Data Ocean Nova, и со сторонними решениями на базе Greenplum, Hadoop, облачного S3. Благодаря открытой модели метаданных и документированному API он позволяет легко выстраивать интеграции с любым сторонним ПО, например, оркестраторами.

Какие задачи чаще всего решают заказчики, приходя к вам?

Евгений Вилков: Сейчас основной драйвер — это импортозамещение. Многие компании используют устаревшие решения, которые уже отжили свое, независимо от политической повестки. Но теперь к естественной технологической миграции добавился фактор геополитики. В итоге бизнес ищет российские аналоги, желательно с возможностью замены сразу нескольких компонентов.

И здесь как раз у нас есть преимущество. Data Ocean позволяет заменить «зоопарк» решений одним продуктом. Платформа закрывает сценарии классических хранилищ, real-time обработки, Data lake, поддержки ML — все это в одной коробке.

Второй важный момент — экономический. Благодаря высокой производительности и эффективной архитектуре наша платформа требует меньше оборудования и ресурсов на обслуживание. Это означает меньшую стоимость владения (TCO) и более выгодную эксплуатацию.

За счет чего достигается высокая производительность и низкая стоимость владения?

Евгений Вилков: Традиционные системы, вроде Teradata или Greenplum, были спроектированы десятки лет назад. Они работают по принципу полного сканирования данных при обработке. Технологии, которые использует Data Sapience, применяют современные оптимизационные техники: bloom-фильтрацию, min-max двухуровневые индексы, динамическую фильтрацию, векторизацию вычислений. Благодаря этому объем данных, которым оперирует вычислительный движок, уменьшается в разы. Идея в том, чтобы не просто прочитать всю информацию с дисковой подсистемы и потом фильтровать, а заранее понять, какие данные нужны аналитическому запросу, и прочитать только эти конкретные файлы, блоки и страницы. Так снижается нагрузка на дисковую систему, экономятся ресурсы оперативной памяти и процессорного времени, что ускоряет выполнение запросов и повышает пропускную способность, так как большее количество SQL-запросов возможно обрабатывать одновременно и за определенный период времени.

К тому же мы не просто используем open source, а вносим значимое количество оптимизаций и изменений в области производительности. Наша модификация open source дает прирост скорости вычислений в два раза в отдельных сценариях использования. Конечно, все это отражается на стоимости владения: меньше оборудования, меньше затрат на обслуживание. Это выгодно отличает Data Sapience от других вендоров, которые просто упаковывают в продукт поддержку open source.

Как реализована поддержка real-time сценариев, федеративного доступа, Data Mesh?

Евгений Вилков: У Data Ocean есть архитектурная поддержка доменной изоляции вычислительных ресурсов. Каждое подразделение компании (например, розница, риски, финансы) может получить свой объем вычислительных ресурсов и необходимые сервисы для решения конкретных задач. Это и есть Data Mesh, при этом у клиента вся инфраструктура остается общей. Такой подход упрощает сопровождение и снижает нагрузку на команду эксплуатации за счет унификации. Ведь вместо зоопарка нескольких кластеров Greenplum, Hadoop, Clickhouse, Postgres, Oracle для каждого подразделения у вас — одна инсталляция единой системы — Data Ocean Nova.

Федеративный доступ позволяет обращаться к внешним источникам напрямую — не только к данным, загруженным в платформу. Это особенно важно для гибридных сценариев анализа, для профилирования внешних систем, для проектирования систем контроля качества данных.

А real-time сценарии — одно из наших ключевых преимуществ. Линейка продуктов Data Ocean умеет обрабатывать и загружать потоки данных в реальном времени, без необходимости ставить дополнительные системы рядом. Это снижает время принятия для data driven решений и позволяет нашим клиентам иметь конкурентное преимущество в бизнесе.

А как обстоят дела с безопасностью и соответствием требованиям регуляторов?

Евгений Вилков: Data Sapience изначально проектировала платформу с учетом требований регуляторов. У нас большой опыт доведения западных решений до российского compliance, в частности по линии банковского регулятора — ЦБ. И этот опыт мы перенесли в собственный продукт, адаптируя его сразу же под самые жесткие требования регулирующих органов.

Каждый релиз аудируется на уязвимости. Мы устраняем уязвимости регулярно и проходим проверки на стороне клиента. Есть встроенные механизмы для работы с персональными и чувствительными данными, сервисы детализированного журналирования событий, единая ролевая модель на все компоненты системы.

Все это позволяет Data Ocean Nova уверенно работать в высоконагруженных, чувствительных к безопасности средах: будь то банки, страховые компании или крупные ритейлеры.

Расскажите о проектах. Кто уже использует Data Ocean и для чего?

Евгений Вилков: В числе наших клиентов — «Альфа-Банк», «Магнит», «Лента», Burger King Russia, Lamoda, «Ингосстрах», крупная алкогольная компания, крупные региональные банки, программа лояльности «Апельсин», топ-3 финансовая организация РФ. И это далеко не весь список. Мы представлены практически во всех индустриях, где востребована работа с большими данными.

Например, «Альфа-Банк» сначала использовал нашу платформу как real-time data hub, а сейчас переносит все данные и сервисы со старых систем обработки больших данных в единую платформу на базе нашего решения. «Магнит» — один из самых масштабных кейсов на рынке РФ по внедрению Lakehouse-решений. Они мигрируют с Teradata и Oracle на единую платформу в публичном облаке. Переносят свои сервисы данных в Data Ocean Nova и планируют к концу 2025 вырасти до объемов 1,8 петабайт сжатых данных.

Для ритейла мы уже стали рыночным стандартом. И «Магнит», и «Лента» — еще один крупный ритейлер — завершили первый этап внедрения. Компания «Burger King Russia» использует в публичном облаке нашу систему как озеро данных для вычислений, которые невозможно выполнять на традиционной системе Greenplum. Страховая компания «Ингосстрах» пользуется платформой Data Ocean Nova как вспомогательным решением для подготовки и анализа данных для системы машинного обучения.

Какие результаты отмечают клиенты?

Евгений Вилков: Снижение стоимости владения, кратный рост производительности и возможность консолидировать данные в одной системе. Например, в «Магните» несколько подразделений работают в изолированных доменах на одной платформе — это серьезно экономит ресурсы.

А какой проект был самым интересным лично для вас?

Евгений Вилков: Пожалуй, «Магнит» и «Альфа-Банк». Коллеги поверили в нас сразу — в 2023 году, когда мы выпустили первый крупный публичный релиз. Они стали нашими early adopters, если говорить на языке стартапов.

Было много технических вызовов. Мы выступали в новой для себя роли — вендора, а не интегратора. Приходилось многое делать впервые. Например, обучать команды заказчиков. Я лично участвовал в создании учебных курсов по системе, помогал выстраивать процессы поддержки, разрабатывал документацию. Сейчас у нас есть 7-дневная программа для разработчиков и администраторов, мы написали «книгу рецептов» — расширенную документацию по реализации сценариев работы. Компания развивалась бурно, приходилось много нанимать и быстро обучать.

Еще запомнился кейс с крупным банком в Закавказье: миграция классического хранилища данных с Oracle на нашу платформу. Мы выиграли тендер, конкурируя с теми самыми западными вендорами, которых сейчас замещаем в России. Это важный сигнал: наша платформа конкурентоспособна не только локально.

Как вы планируете развивать платформу в ближайшее время?

Евгений Вилков: Во-первых, self-service функционал. Пользователи смогут самостоятельно подключать источники и загружать данные, создавать и настраивать свои процессы обработки данных, работать с каталогом данных из единого графического интерфейса. По сути, мы поставили себе амбициозную цель — стать интегрированной платформой с точки зрения пользовательского опыта, с поддержкой on-prem и гибридных сценариев.

Во-вторых, производительность. Повторюсь: Data Sapience не только собирает open source, а серьезно дорабатывает компоненты системы. Наши оптимизации позволяют быть в несколько раз быстрее решений, которые клиенты могли бы собрать самостоятельно из open source компонентов или могут предложить альтернативные вендоры, расшиваем узкие места технологий в практических сценариях использования. И мы планируем увеличивать этот разрыв. Производительность напрямую влияет на стоимость владения: меньше оборудования — меньше затрат.

В-третьих, простота использования. Платформа уже управляется через графический интерфейс, но мы идем дальше: хотим сделать установку такой же простой, как инсталляция обычного приложения на персональный компьютер. Никаких командных строк, только интуитивный UI.

Ну и, конечно, ИИ. У нас уже есть ИИ-агенты, помогающие разработчикам и администраторам. В ближайшее время появятся агенты, помогающие с миграцией кода и автоматизацией типовых задач. Но мы стараемся избегать хайпа: делаем только то, что действительно полезно в практическом применении.

Что, по-вашему, станет следующим этапом эволюции платформ данных в России?

Евгений Вилков: Во-первых, практическое применение ИИ. Появятся новые сервисы и решения, которые автоматизируют миграцию, ускоряют написание кода, повышают эффективность аналитики.

Во-вторых, технологическая трансформация. Аппаратное обеспечение развивается стремительно: 400Gbs-сети, а завтра — 800Gbs-сети, GPU-ускорители, новые классы инфраструктуры. Мы уже сейчас проводим исследования по применению GPU для ускорения аналитических SQL-запросов.

Ну и, в-третьих, я уверен, что архитектурная модель Lakehouse останется с нами надолго. Это не временное явление, а устойчивая парадигма.