2017/08/16 18:33:24

DataLake
Озеро данных

DataLake (в пер. «озеро данных») — термин, описывающий любые крупные объемы данных. Фактически это репозитарий, в котором хранится огромный объем «сырых» данных в их первоначальном формате до тех пор, пока они не будут использованы.

Содержание

Хотя озера данных все еще остаются новым явлением, в последнее время они получили некоторое признание со стороны ИТ-подразделений в связи с тем, что данные все больше превращаются в основу современного бизнеса. Озера рассматриваются как решение, позволяющее уменьшить разрастание данных и их изолированность. Они отпочковались от хранилищ данных, которые должны были помочь ИТ-подразделениям создать организованные репозитории стратегически важных наборов данных для принятия ключевых бизнес-решений. Эти данные могут использоваться для решения самых различных задач, начиная с аналитики и лучшего понимания потребностей клиентов и заканчивая применением искусственного интеллекта для принятия решений в реальном времени[1].

Озера данных представляют дальнейшую эволюцию хранилищ. Множество проектов создания последних провалились: они оказывались слишком дорогостоящими, требовали слишком много времени и позволяли достичь лишь немногих из поставленных целей. Данные меняются и растут так быстро, что необходимость в незамедлительном извлечении из них пользы стала еще более насущной. Никто не может позволить себе тратить месяцы или годы на анализ и моделирование данных для бизнеса. К тому времени, когда данные в хранилищах становятся доступными для использования, потребности бизнеса уже изменяются.

Витрины данных, как и хранилища, создавались для данных, предназначенных для использования в определенных целях или обладающих определенными свойствами (например, для данных подразделения маркетинга). Они приобрели популярность, поскольку здесь использование данных более понятно, а результаты могут выдаваться быстрее. Однако они разделяют данные, что сделало витрины менее полезными для компаний, имеющих огромные объемы данных и нуждающихся в их многофункциональном использовании многими сотрудниками.

В этой связи были разработаны озера данных, которые призваны ускорить работу с данными и облегчить их использование для удовлетворения тех потребностей, которые прежде не определялись. Появление облаков, предоставляющих дешевую вычислительную мощность и практически неограниченный объем хранения, сделало возможным создание озер данных.

Рекомендации по развертыванию озер данных

Поскольку это все еще достаточно новое явление, рынок не полностью адаптировался к озерам данных. Поэтому сейчас наибольшую выгоду извлекут первопроходцы, которые, вероятно, станут применять их в сочетании с искусственным интеллектом для ведения повседневных операций. Многие ИТ-подразделения подыскивают наиболее подходящее решение для своей компании. Ниже приводятся основанные на передовом опыте рекомендации по развертыванию озер данных.

1. Руководствуйтесь стратегией при помещении данных в озеро

Основная причина размещения данных в озерах — использование данных в определенных целях. Хотя теоретически озера должны служить многим целям, которые еще надлежит определить, начинать лучше тогда, когда что-то известно о том, как будут использоваться данные. Подумайте, какую пользу может принести озеро данных помимо хранения. Как и в случае с любой другой инициативой в области ИТ, важно прежде всего привести развертывание в соответствие с конкретной стратегией, которая определяет не только цели ИТ, но и долгосрочные цели компании в целом.

Задайтесь вопросом, поможет ли озеро управлять данными компании. Хранить данные для использования в будущем обойдется слишком дорого, когда речь идет о нескольких годах. Если компания не предполагает в ближайшее время использовать данные с определенной целью, их хранение означает разбазаривание средств.

2. Храните данные с максимальной детализацией и расставляйте теги

Хранение данных с максимальной детализацией позволяет их компоновать, агрегировать и производить с ними другие манипуляции в самых различных целях. Не следует агрегировать или обобщать данные перед помещением их в озеро. Поскольку ценность озера данных не проявится, пока компания не использует данные, лучше помещать их в озеро после расстановки тегов и каталогизации. Когда они потребуются, ИТ-подразделение сможет просеять репозиторий и выделить активы. Расстановка тегов, которые необходимы для подготовки отчетов, облегчает аналитику. Машинное обучение и ИИ помогают просеивать данные и создавать теги.

Кроме того, компании могут использовать аналитику, машинное обучение и ИИ для повышения общей конкурентоспособности компании. Один инструмент позволяет применять другие.

3. Имейте план уничтожения данных

Компании слишком часто накапливают большие объемы данных, не имея плана избавления от ненужных активов. Отсутствие такого плана может помешать выполнению требований регуляторов об уничтожении информации по истечение определенного времени. Например, такое требование содержится в GDPR применительно к данным о гражданах ЕС.

Сочетание плана уничтожения и озера данных способно помочь определить, что и когда должно быть уничтожено. Это также является решением в тех случаях, когда от компаний требуют отслеживать местонахождение данных о клиентах. Наличие единственного хранилища снижает затраты и экономит время.

Подготовка к будущему

Компании накапливают все больше данных, поэтому сохранится потребность в их хранении и использовании в стратегических целях. Озера данных — отличный способ выявления ценности данных для бизнеса. При выборе решения прежде всего определите, как, по вашему мнению, организация будет использовать данные, а затем — как их хранить. Например, после снижения цен на хранение очень привлекательно стало создание озер данных в облаках. Если использование облака соответствует целям компании, следует подыскать провайдера, который удовлетворит ваши уникальные потребности в инфраструктуре. Как облачный сервис-провайдер или ваше собственное подразделение DevOps встроят процесс в озеро данных, чтобы данные можно было загружать и извлекать по мере необходимости?

Поскольку для получения максимальной пользы от озера данных, несомненно, потребуется большой объем вычислений, подумайте, какие этапы аналитической обработки могут быть автоматизированы. Необходимы будут также опытные специалисты по созданию инфраструктуры для хранения озера данных, загрузки в него данных и трансформации данных для использования. Налаживание регулярного открытого обмена информацией между руководителями подразделения ИТ и бизнеса может стать первым шагом к любой трансформации ИТ, в т. ч. к созданию озер данных.

Смотрите также

Примечания