2025/12/11 09:42:23

Digital Q.DataFactory: от промышленного хранилища данных до точных AI-прогнозов

В современном мире данные стали ключевым активом бизнеса, позволяющим принимать эффективные управленческие решения, строить прогнозы, использовать накопленную информацию для машинного обучения (ML) и решать многие другие задачи. Но огромный объем данных, разнородность, несогласованность и зачастую низкое качество превращают процесс извлечения пользы в сложную инженерную задачу.

Содержание

Как извлечь пользу из данных

Эксперты компании «Диасофт» на примере кейса одного из заказчиков представили возможности комплексного решения «Фабрика данных» (Digital Q.DataFactory), входящего в состав экосистемы Digital Q. Решение помогает извлекать максимальную пользу из данных за счет автоматизации всех процессов: от сбора и обработки данных до построения прогнозов на их основе.

Digital Q.DataFactory предназначено для объединения разрозненных данных в единое хранилище, аналитики данных, автоматизации подготовки признаков ML-моделей (переменных, которые описывают отдельные характеристики моделей), машинного обучения предиктивных моделей и визуализации данных.

Проблема: почему машинное обучение не работает без качественных данных?

Эффективность машинного обучения (ML) напрямую зависит от качества данных. Некорректные, неполные или несогласованные данные приводят к ошибочным прогнозам и неверным бизнес-решениям. Ярким примером стала задача построения и обучения ML- модели для прогнозирования добычи нефти на основе исторических данных с датчиков буровых вышек.

На начальном этапе сбора и обработки данных возникли типичные проблемы:

  • Неполнота данных: датчики могут передавать данные с пропусками.
  • Несогласованность: данные поступают из множества разнородных источников в разных форматах.
  • Ненадежность: подрядчики могут присылать устаревшие данные.

Без решения этих проблем любая попытка построить ML-модель обречена на провал.

Решение: сквозной контроль качества данных

Для решения проблемы низкого качества данных использовались возможности решения «Фабрика данных» от компании «Диасофт», в котором реализованы встроенные процессы контроля качества на каждом этапе:

  • В процессе загрузки: автоматическая проверка форматов и заполнение отсутствующих значений на основе правил и алгоритмов.
  • Стандартизация: каждый источник данных описывается метаданными (источник, метод измерения, частота обновления, допустимые значения), что обеспечивает согласованность.
  • Мониторинг: контроль расхождений между прогнозными и фактическими показателями, отслеживание и устранение дубликатов.

Важным этапом контроля качества данных является инцидент-менеджмент. Каждая ошибка в данных фиксируется, а для ее решения автоматически запускается бизнес-процесс с назначением ответственных. Это гарантирует, что проблемы не останутся незамеченными и будут системно устранены. Данные, ожидающие проверки качества, изолируются для исключения их влияния на результаты построения отчетности и обучения ML-моделей.

От сбора данных до AI-прогнозов: пошаговое решение задачи с помощью «Фабрики данных»

С помощью продукта «Каталог данных» (Digital Q.DataCatalog), входящего в состав решения, агрегируется информация о показателях бурения, собранная с датчиков. При необходимости можно осуществлять операции с данными: объединение по различным признакам, заполнение глоссария, расчет метрик, поиск и другие. Здесь же производится работа с метаданными, отслеживание lineage.

Для создания процессов загрузки и трансформации данных используются возможности технологической платформы Digital Q.DataFlows. По своим функциональным возможностям она существенно превосходит распространенные open source-решения:

  • Реализованы возможности генерации и выполнения процессов обработки данных для разных технологий (Apache NIFI, Spark, SQL и др.).
  • Low-code инструменты позволяют быстро разрабатывать потоки обработки данных.
  • Встроенный фреймворк разработки обеспечивает оперативную автоматизацию процессов.

Для автоматизации загрузки данных используются метаданные из каталога, указывающие источник и приемник данных. Для упрощения настроек есть автоматические алгоритмы маппинга атрибутов.

Встроенный фреймворк упрощает работу создания тысяч рутинных процессов в рамках захвата данных, расчета показателей, преобразования форматов, формирования витрин данных: код, автоматизирующий процессы, генерируется автоматически. В случае рассматриваемого кейса из всего массива данных отбирались показатели по определенных добывающим скважинам за указанный период времени.

Далее производится контроль качества данных для обучения ML-моделей.

Что получилось в результате

1. Решена проблема «мусор на входе — мусор на выходе». Благодаря сквозному контролю качества и инцидент-менеджменту данные с датчиков буровых вышек были очищены, стандартизированы и приведены к единому, пригодному для анализа виду. Это устранило ключевое препятствие для эффективной работы ML-моделей.

2. Автоматизирован весь жизненный цикл данных: от сбора и трансформации разрозненных данных до подготовки признаков для машинного обучения. Это позволило быстро и эффективно отбирать нужные показатели по конкретным скважинам за заданные периоды времени.

3. Построена и обучена работоспособная ML-модель прогнозирования добычи. На основе качественных исторических данных была создана предиктивная модель, которая может с высокой точностью прогнозировать уровни добычи нефти.

Ожидаемый бизнес-эффект

  • Повышение эффективности добычи: точные прогнозы позволяют оптимизировать режимы работы скважин, планировать ремонты и управлять добывающими активами, что напрямую ведет к увеличению добычи и снижению операционных затрат.
  • Снижение рисков и затрат: возможность предсказывать падение добычи или технические проблемы помогает избежать простоев и дорогостоящих аварий.
  • Ускорение принятия решений: менеджеры получают доступ к достоверным данным и прогнозам в режиме, близком к реальному времени, что позволяет принимать более обоснованные и своевременные управленческие решения.

«
На примере этого проекта мы видим, как «Фабрика данных» от «Диасофт» превратила сырые, неструктурированные данные с датчиков в ценный актив, который теперь используется для построения точных AI-прогнозов. Это позволило бизнесу перейти от реактивного устранения проблем к проактивному управлению добычей на основе данных, что напрямую влияет на ключевые финансовые и операционные показатели компании. Эти возможности «Фабрики данных» используются для работы с любыми другими данными организаций из всех отраслей.
Илья Шуйков, руководитель продукта «Фабрика данных».
»

Digital Q.DataFactory: ключевые возможности

Фабрика данных построена на современной Data Lakehouse-архитектуре, которая объединяет преимущества хранилищ данных (Data Warehouse) и озер данных (Data Lake). Это позволяет работать со структурированными и неструктурированными данными, значительно снижая совокупную стоимость владения (TCO) на 40-60%.

В решении используется in-memory обработка данных, позволяющая создавать конвейеры их обработки в режиме, близком к реальному времени.

Одним из ключевых преимуществ платформы является low-code-подход к созданию процессов работы с данными, что значительно ускоряет разработку и снижает порог входа для инженеров.

Инновацией решения является среда разработки с AI-ассистентом. Она позволяет на естественном языке описывать задачи для аналитики данных, создания предиктивных моделей. В результате генерируется код на PySpark, SQL-запросы и даже ML-модели.

Преимущества для бизнеса

  • Универсальность: решение подходит для организаций из любых сфер экономики и обеспечивает решение широкого спектра задач: от оперативной отчетности и риск-менеджмента до глубокой аналитики и машинного обучения.
  • Единая ответственность: «Диасофт» отвечает за весь стек – от прикладных сервисов до инфраструктуры, что упрощает сопровождение и развитие.
  • Снижение стоимости разработки: автоматизация рутинных операций и low-code инструменты позволяют быстрее разрабатывать решения и требовать меньшей квалификации для выполнения стандартных задач.
  • Гибкая масштабируемость: разделение слоев хранения и вычислений позволяет масштабировать их независимо друг от друга, обеспечивая эффективность и отказоустойчивость.

«
Фабрика данных от «Диасофт» — это не просто набор инструментов, а целостная экосистема работы с данными, которая превращает сырые, разрозненные данные в надежный фундамент для аналитики и искусственного интеллекта. Она закрывает все этапы жизненного цикла данных: от работы с метаданными и контроля качества до визуализации и построения предиктивных моделей, позволяя бизнесу извлечь из своих данных реальную пользу,
заключил Илья Шуйков.
»