2016/01/12 16:28:51

Большие данные (Big Data)

К категории Большие данные (Big Data) относится информация, которую уже невозможно обрабатывать традиционными способами, в том числе структурированные данные, медиа и случайные объекты. Некоторые эксперты считают, что для работы с ними на смену традиционным монолитным системам пришли новые массивно-параллельные решения.

Содержание

Что такое большие данные?

Самое простое определение

Из названия можно предположить, что термин `большие данные` относится просто к управлению и анализу больших объемов данных. Согласно отчету McKinsey Institute `Большие данные: новый рубеж для инноваций, конкуренции и производительности` ( Big data: The next frontier for innovation, competition and productivity), термин `большие данные` относится к наборам данных, размер которых превосходит возможности типичных баз данных (БД) по занесению, хранению, управлению и анализу информации. И мировые репозитарии данных, безусловно, продолжают расти. В представленном в середине 2011 г. отчете аналитической компании IDC `Исследование цифровой вселенной` (Digital Universe Study), подготовку которого спонсировала компания EMC, предсказывалось, что общий мировой объем созданных и реплицированных данных в 2011-м может составить около 1,8 зеттабайта (1,8 трлн. гигабайт) — примерно в 9 раз больше того, что было создано в 2006-м.

Более сложное определение

Тем не менее `большие данные` предполагают нечто большее, чем просто анализ огромных объемов информации. Проблема не в том, что организации создают огромные объемы данных, а в том, что бóльшая их часть представлена в формате, плохо соответствующем традиционному структурированному формату БД, — это веб-журналы, видеозаписи, текстовые документы, машинный код или, например, геопространственные данные. Всё это хранится во множестве разнообразных хранилищ, иногда даже за пределами организации. В результате корпорации могут иметь доступ к огромному объему своих данных и не иметь необходимых инструментов, чтобы установить взаимосвязи между этими данными и сделать на их основе значимые выводы. Добавьте сюда то обстоятельство, что данные сейчас обновляются все чаще и чаще, и вы получите ситуацию, в которой традиционные методы анализа информации не могут угнаться за огромными объемами постоянно обновляемых данных, что в итоге и открывает дорогу технологиям больших данных.

Наилучшее определение

В сущности понятие больших данных подразумевает работу с информацией огромного объема и разнообразного состава, весьма часто обновляемой и находящейся в разных источниках в целях увеличения эффективности работы, создания новых продуктов и повышения конкурентоспособности. Консалтинговая компания Forrester дает краткую формулировку: `Большие данные объединяют техники и технологии, которые извлекают смысл из данных на экстремальном пределе практичности`.

Насколько велика разница между бизнес-аналитикой и большими данными?

Крейг Бати, исполнительный директор по маркетингу и директор по технологиям Fujitsu Australia, указывал, что бизнес-анализ является описательным процессом анализа результатов, достигнутых бизнесом в определенный период времени, между тем как скорость обработки больших данных позволяет сделать анализ предсказательным, способным предлагать бизнесу рекомендации на будущее. Технологии больших данных позволяют также анализировать больше типов данных в сравнении с инструментами бизнес-аналитики, что дает возможность фокусироваться не только на структурированных хранилищах.

Мэтт Слокум из O'Reilly Radar считает, что хотя большие данные и бизнес-аналитика имеют одинаковую цель (поиск ответов на вопрос), они отличаются друг от друга по трем аспектам.

  • Большие данные предназначены для обработки более значительных объемов информации, чем бизнес-аналитика, и это, конечно, соответствует традиционному определению больших данных.

  • Большие данные предназначены для обработки более быстро получаемых и меняющихся сведений, что означает глубокое исследование и интерактивность. В некоторых случаях результаты формируются быстрее, чем загружается веб-страница.

  • Большие данные предназначены для обработки неструктурированных данных, способы использования которых мы только начинаем изучать после того, как смогли наладить их сбор и хранение, и нам требуются алгоритмы и возможность диалога для облегчения поиска тенденций, содержащихся внутри этих массивов.

Согласно опубликованной компанией Oracle белой книге `Информационная архитектура Oracle: руководство архитектора по большим данным` (Oracle Information Architecture: An Architect's Guide to Big Data), при работе с большими данными мы подходим к информации иначе, чем при проведении бизнес-анализа.

Работа с большими данными не похожа на обычный процесс бизнес-аналитики, где простое сложение известных значений приносит результат: например, итог сложения данных об оплаченных счетах становится объемом продаж за год. При работе с большими данными результат получается в процессе их очистки путём последовательного моделирования: сначала выдвигается гипотеза, строится статистическая, визуальная или семантическая модель, на ее основании проверяется верность выдвинутой гипотезы и затем выдвигается следующая. Этот процесс требует от исследователя либо интерпретации визуальных значений или составления интерактивных запросов на основе знаний, либо разработки адаптивных алгоритмов `машинного обучения`, способных получить искомый результат. Причём время жизни такого алгоритма может быть довольно коротким.

Методики анализа больших данных

Существует множество разнообразных методик анализа массивов данных, в основе которых лежит инструментарий, заимствованный из статистики и информатики (например, машинное обучение). Список не претендует на полноту, однако в нем отражены наиболее востребованные в различных отраслях подходы. При этом следует понимать, что исследователи продолжают работать над созданием новых методик и совершенствованием существующих. Кроме того, некоторые из перечисленных них методик вовсе не обязательно применимы исключительно к большим данным и могут с успехом использоваться для меньших по объему массивов (например, A/B-тестирование, регрессионный анализ). Безусловно, чем более объемный и диверсифицируемый массив подвергается анализу, тем более точные и релевантные данные удается получить на выходе.

A/B testing. Методика, в которой контрольная выборка поочередно сравнивается с другими. Тем самым удается выявить оптимальную комбинацию показателей для достижения, например, наилучшей ответной реакции потребителей на маркетинговое предложение. Большие данные позволяют провести огромное количество итераций и таким образом получить статистически достоверный результат.

Association rule learning. Набор методик для выявления взаимосвязей, т.е. ассоциативных правил, между переменными величинами в больших массивах данных. Используется в data mining.

Classification. Набор методик, которые позволяет предсказать поведение потребителей в определенном сегменте рынка (принятие решений о покупке, отток, объем потребления и проч.). Используется в data mining.

Cluster analysis. Статистический метод классификации объектов по группам за счет выявления наперед не известных общих признаков. Используется в data mining.

Crowdsourcing. Методика сбора данных из большого количества источников.

Data fusion and data integration. Набор методик, который позволяет анализировать комментарии пользователей социальных сетей и сопоставлять с результатами продаж в режиме реального времени.

Data mining. Набор методик, который позволяет определить наиболее восприимчивые для продвигаемого продукта или услуги категории потребителей, выявить особенности наиболее успешных работников, предсказать поведенческую модель потребителей.

Ensemble learning. В этом методе задействуется множество предикативных моделей за счет чего повышается качество сделанных прогнозов.

Genetic algorithms. В этой методике возможные решения представляют в виде `хромосом`, которые могут комбинироваться и мутировать. Как и в процессе естественной эволюции, выживает наиболее приспособленная особь.

Machine learning. Направление в информатике (исторически за ним закрепилось название `искусственный интеллект`), которое преследует цель создания алгоритмов самообучения на основе анализа эмпирических данных.

Natural language processing (NLP). Набор заимствованных из информатики и лингвистики методик распознавания естественного языка человека.

Network analysis. Набор методик анализа связей между узлами в сетях. Применительно к социальным сетям позволяет анализировать взаимосвязи между отдельными пользователями, компаниями, сообществами и т.п.

Optimization. Набор численных методов для редизайна сложных систем и процессов для улучшения одного или нескольких показателей. Помогает в принятии стратегических решений, например, состава выводимой на рынок продуктовой линейки, проведении инвестиционного анализа и проч.

Pattern recognition. Набор методик с элементами самообучения для предсказания поведенческой модели потребителей.

Predictive modeling. Набор методик, которые позволяют создать математическую модель наперед заданного вероятного сценария развития событий. Например, анализ базы данных CRM-системы на предмет возможных условий, которые подтолкнут абоненты сменить провайдера.

Regression. Набор статистических методов для выявления закономерности между изменением зависимой переменной и одной или несколькими независимыми. Часто применяется для прогнозирования и предсказаний. Используется в data mining.

Sentiment analysis. В основе методик оценки настроений потребителей лежат технологии распознавания естественного языка человека. Они позволяют вычленить из общего информационного потока сообщения, связанные с интересующим предметом (например, потребительским продуктом). Далее оценить полярность суждения (позитивное или негативное), степень эмоциональности и проч.

Signal processing. Заимствованный из радиотехники набор методик, который преследует цель распознавания сигнала на фоне шума и его дальнейшего анализа.

Spatial analysis. Набор отчасти заимствованных из статистики методик анализа пространственных данных – топологии местности, географических координат, геометрии объектов. Источником больших данных в этом случае часто выступают геоинформационные системы (ГИС).

Statistics. Наука о сборе, организации и интерпретации данных, включая разработку опросников и проведение экспериментов. Статистические методы часто применяются для оценочных суждений о взаимосвязях между теми или иными событиями.

Supervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить функциональные взаимосвязи в анализируемых массивах данных.

Simulation. Моделирование поведения сложных систем часто используется для прогнозирования, предсказания и проработки различных сценариев при планировании.

Time series analysis. Набор заимствованных из статистики и цифровой обработки сигналов методов анализа повторяющихся с течением времени последовательностей данных. Одни из очевидных применений – отслеживание рынка ценных бумаг или заболеваемости пациентов.

Unsupervised learning. Набор основанных на технологиях машинного обучения методик, которые позволяют выявить скрытые функциональные взаимосвязи в анализируемых массивах данных. Имеет общие черты с Cluster Analysis.

Визуализация. Методы графического представления результатов анализа больших данных в виде диаграмм или анимированных изображений для упрощения интерпретации облегчения понимания полученных результатов.

Основная статья: Визуалиазация данных

Наглядное представление результатов анализа больших данных имеет принципиальное значение для их интерпретации. Не секрет, что восприятие человека ограничено, и ученые продолжают вести исследования в области совершенствования современных методов представления данных в виде изображений, диаграмм или анимаций.

Аналитический инструментарий

На 2011 год некоторые из перечисленных в предыдущем подразделе подходов или определенную их совокупность позволяют реализовать на практике аналитические движки для работы с большими данными. Из свободных или относительно недорогих открытых систем анализа Big Data можно порекомендовать:[1]

Особый интерес в этом списке представляет Apache Hadoop – ПО с открытым кодом, которое за последние пять лет испытано в качестве анализатора данных большинством трекеров акций[2]. Как только Yahoo открыла код Hadoop сообществу с открытым кодом, в ИТ-индустрии незамедлительно появилось целое направление по созданию продуктов на базе Hadoop. Практически все современные средства анализа больших данных предоставляют средства интеграции с Hadoop. Их разработчиками выступают как стартапы, так и общеизвестные мировые компании.

Рынки решений для управления большими данными

Ведущие поставщики

Интерес к инструментам сбора, обработки, управления и анализа больших данных проявляли едва ли не все ведущие ИТ-компании, что вполне закономерно. Во-первых, они непосредственно сталкиваются с этим феноменом в собственном бизнесе, во-вторых, большие данные открывают отличные возможности для освоения новых ниш рынка и привлечения новых заказчиков.

На рынке появлялось множество стартапов, которые делают бизнес на обработке огромных массивов данных. Часть из них используют готовую облачную инфраструктуру, предоставляемую крупными игроками вроде Amazon.

История развития

2016

Прогноз EMC: BigData и аналитика в реальном времени объединятся

В 2016 году мы познакомимся с новой главой истории развития аналитики «больших данных» по мере развития двухуровневой модели обработки. Первый уровень будет представлять собой «традиционную» аналитику BigData, когда большие массивы данных подвергаются анализу не в режиме реального времени. Новый, второй уровень обеспечит возможность анализа относительно больших объемов данных в реальном времени, в основном за счет технологий аналитики в памяти (in-memory). В этой новой фазе развития BigData, такие технологии как DSSD, Apache Spark и GemFire будут столь же важны, как Hadoop. Второй уровень предложит нам одновременно новые и привычные способы использования «озер данных» - для «аналитики на лету» с целью влияния на события, в то время, когда они происходят. Это открывает новые возможности для бизнеса в таких масштабах, которых раньше никто не видел.

Но для того, чтобы аналитика в памяти стала реальностью, необходимо, чтобы произошло два события. Во-первых, поддерживающие технологии должны получить необходимое развитие, чтобы обеспечить достаточные объемы памяти для размещения действительно масштабных наборов данных. Также нужно подумать о том, как эффективно перемещать данные между большими объектными хранилищами и системами, ведущими анализ в памяти. Ведь эти два элемента работают в принципиально разных режимах, и ИТ-группам нужно будет создать особые условия, чтобы данные могли перемещаться туда и обратно с нужной скоростью и прозрачно для пользователей. Работы уже ведутся, появляются новые объектные хранилища, специальные флеш-массивы для монтажа в стойку, а также специальные технологии, которые могут объединить их в одну систему. Инициативы с открытым кодом будут играть важную роль в поиске ответа на этот вызов.

Во-вторых, масштабные среды вычислений в памяти требуют устойчивости и динамичности данных. Проблема состоит в том, что обеспечивая персистентность данных в памяти, мы делаем устойчивыми также любые их дефекты. В результате в 2016 году мы увидим появления систем хранения для сред, проводящих обработку данных в памяти. Они будут предоставлять сервисы дедупликации, снимков состояния, многоуровневого хранения, кеширования, репликации, а также возможность определения последнего состояния, когда данные были верными и система работала корректно. Эти функции будут крайне важны по мере перехода к аналитике в реальном времени, когда более безопасные технологии обработки данных в памяти станут коммерческими в 2016 году.

2015

Gartner исключила "Большие данные" из популярных трендов

6 октября 2015 года стало известно об исключении из отчета Gartner «Цикл зрелости технологий 2015» сведений о больших данных. Исследователи объяснили это размыванием термина — входящие в понятие «большие данные» технологии стали повседневной реальностью бизнеса[3].

Отчет Gartner «Цикл зрелости технологий» (Hype Cycle for Emerging Technologies) взбудоражил отрасль отсутствием технологии сбора и обработки больших массивов данных. Свое решение аналитики компании объяснили тем, что в состав понятия «большие данные» входит большое количество технологий, активно применяющихся на предприятиях, они частично относятся к другим популярным сферам и тенденциям и стали повседневным рабочим инструментом.

Диаграмма Gartner "Hype Cycle for Emerging Technologies 2015"

«Изначально понятие «большие данные» расшифровывали через определение из трех «V»: volume, velocity, variety. Под этим термином подразумевалась группа технологий хранения, обработки и анализа данных большого объема, с изменчивой структурой и высокой скоростью обновления. Но реальность показала, что получение выгоды в бизнес-проектах осуществляется по тем же принципам, что и раньше. А описываемые технологические решения сами по себе не создали никакой новой ценности, лишь ускорив обработку большого количества данных. Ожидания были очень высокие, и список технологий больших данных интенсивно рос. Очевидно, что вследствие этого границы понятия размылись до предела», — поведал Святослав Штумпф, главный эксперт группы маркетинга продуктов «Петер-Сервис».

Дмитрий Шепелявый, заместитель генерального директора SAP СНГ, считает - тема больших данных не исчезла, а трансформировалась во множество различных сценариев:

«Примерами здесь могут быть ремонты по состоянию, точное земледелие (precision farming), системы по противодействию мошенничеству, системы в медицине, позволяющие на качественно новом уровне диагностировать и лечить пациентов. А также планирование логистической системы и транспортировки в режиме реального времени, усовершенствованная бизнес-аналитика для поддержки и сопровождения основных функций компаний. Один из основных трендов сейчас — Интернет вещей, позволяющий связывать машины между собой (machine-to-machine). Устанавливаемые электронные датчики производят миллионы транзакций в секунду, и необходимо надежное решение, способное трансформировать, сохранить и работать с ними в режиме реального времени».

В мае 2015 года Эндрю Уайт (Andrew White), вице-президент по исследованиям Gartner, в своем блоге размышлял:

"Интернет вещей (Internet of Things, IoT) затмит собой большие данные, как слишком сфокусированную технологию. Она может породить еще несколько эффективных решений и инструментов, но платформой будущего, которая в долгосрочной перспективе повысит нашу продуктивность, станет именно интернет вещей".

Аналогичные идеи раньше - по результатам отчета Gartner за 2014 год, опубликовал обозреватель Forbes Гил Пресс (Gil Press).

По мнению Дмитрия Шепелявого, наступила эпоха, когда важно не просто уметь аккумулировать информацию, а извлекать из нее бизнес-выгоду. Первыми к этому выводу пришли индустрии, которые непосредственно работают с потребителем: телекоммуникационная и банковская, ритейл. Теперь процессы взаимодействия выходят на новый уровень, позволяя наладить связь между различными устройствами с использованием инструментов дополненной реальности и открывают новые возможности оптимизации бизнес-процессов компаний.

«Понятие «большие данные» потеряло интерес для реального бизнеса, на диаграмме Gartner его место заняли другие технологии с более четким и понятным бизнесу звучанием», — подчеркнул Святослав Штумпф.

Это, в первую очередь, машинное обучение — средства поиска правил и связей в очень больших объемах информации. Такие технологии позволяют не просто проверять гипотезы, но искать неизвестные ранее факторы влияния. Сегмент решений по хранению данных и параллельному доступу к ним (NoSQL Database), по предварительной обработке потоков информации (Marshalling), решения для визуализации и самостоятельного анализа (Advanced Analytics with Self-Service Delivery). Кроме того, по мнению эксперта, сохраняют свое значение средства интеллектуального анализа данных (Business Intelligence и Data Mining), выходящие на новый технологический уровень.

В понимании «Яндекса», согласно заявлению пресс-службы компании, большие данные никуда не исчезли и не трансформировались. Для обработки больших массивов данных компания использует те же технологии и алгоритмы, что применяет в интернет-поиске, сервисе «Яндекс.Пробки», в машинном переводчике, в рекомендательной платформе, в рекламе. Алгоритмы основаны на умении компании: накапливать, хранить и обрабатывать большие объемы данных и делать их полезными бизнесу. Области применения Yandex Data Factory не ограничены — главное, чтобы были данные для анализа. В фокусе компании на 6 октября 2015 года:

  • ритейл,
  • финансы,
  • логистика,
  • телеком,
  • энергетика,
  • ЖКХ,
  • нефтегаз,
  • аэрокосмическая отрасль.

Big data и ценовая дискриминация клиентов

Ниже приведены избранные фрагменты из статьи Морган Кеннеди (Morgan Kennedy) опубликованной 6 февраля 2015 на сайте InsidePrivacy, посвященном проблеме защиты неприкосновенности частной жизни[4].

5 февраля 2015 года Белый дом опубликовал доклад (см. http://www.whitehouse.gov/sites/default/files/whitehouse_files/docs/Big_Data_Report_Nonembargo_v2.pdf ), в котором обсуждался вопрос о том, как компании используют «большие данные» для установления различных цен для разных покупателей - практика, известная как «ценовая дискриминация» или «дифференцированное ценообразование» (personalized pricing). Отчет описывает пользу «больших данных» как для продавцов, так и покупателей, и его авторы приходят к выводу о том, что многие проблемные вопросы, возникшие в связи с появлением больших данных и дифференцированного ценообразования, могут быть решены в рамках существующего антидискриминационного законодательства и законов, защищающих права потребителей.

В докладе отмечается, что в это время имеются лишь отдельные факты, свидетельствующие о том, как компании используют большие данные в контексте индивидуализированного маркетинга и дифференцированного ценообразования. Этот сведения показывают, что продавцы используют методы ценообразования, которые можно разделить на три категории: (1) изучение кривой спроса; (2) Наведение (steering) и дифференцированное ценообразование на основе демографических данных; и (3) целевой поведенческий маркетинг (поведенческий таргетинг - behavioral targeting) и индивидуализированное ценообразование.

Изучение кривой спроса: С целью выяснения спроса и изучения поведения потребителей маркетологи часто проводят эксперименты в этой области, в ходе которых клиентам случайным образом назначается одна из двух возможных ценовых категорий. «Технически эти эксперименты являются формой дифференцированного ценообразования, поскольку их следствием становятся разные цены для клиентов, даже если они являются «недискриминационными» в том смысле, что у всех клиенты вероятность «попасть» на более высокую цену одинакова».

Наведение (steering): Это практика представления продуктов потребителям на основе их принадлежности к определенной демографической группе. Так, веб-сайт компьютерной компании может предлагать один и тот же ноутбук различным типам покупателей по разным ценам, уставленным на основе сообщённой ими о себе информации (например, в зависимости от того, является ли данный пользователь представителем государственных органов, научных или коммерческих учреждений, или же частным лицом) или от их географического расположения (например, определенного по IP-адресу компьютера).

Целевой поведенческий маркетинг и индивидуализированное ценообразование: В этих случаях персональные данные покупателей используются для целевой рекламы и индивидуализированного назначения цен на определенные продукты. Например, онлайн-рекламодатели используют собранные рекламными сетями и через куки третьих сторон данные об активности пользователей в интернете для того, чтобы нацелено рассылать свои рекламные материалы. Такой подход, с одной стороны, дает возможность потребителям получить рекламу представляющих для них интерес товаров и услуг, Он, однако, может вызвать озабоченность тех потребителей, которые не хотят, чтобы определенные виды их персональных данных (такие, как сведения о посещении сайтов, связанных с медицинскими и финансовыми вопросами) собирались без их согласия.

Хотя целевой поведенческий маркетинг широко распространен, имеется относительно мало свидетельств индивидуализированного ценообразования в онлайн-среде. В отчете высказывается предположение, что это может быть связано с тем, что соответствующие методы все ещё разрабатываются, или же с тем, что компании не спешат использовать индивидуальное ценообразование (либо предпочитают о нём помалкивать) - возможно, опасаясь негативной реакции со стороны потребителей.

Авторы отчета полагают, что «для индивидуального потребителя использование больших данных, несомненно, связано как с потенциальной отдачей, так и с рисками». Признавая, что при использовании больших данных появляются проблемы прозрачности и дискриминации, отчет в то же время утверждает, что существующих антидискриминационных законов и законов по защиты прав потребителей достаточно для их решения. Однако в отчете также подчеркивается необходимость «постоянного контроля» в тех случаях, когда компании используют конфиденциальную информацию непрозрачным образом либо способами, которые не охватываются существующей нормативно-правовой базой.

Данный доклад является продолжением усилий Белого дома по изучению применения «больших данных» и дискриминационного ценообразования в Интернете, и соответствующих последствий для американских потребителей. Ранее мы уже сообщали (см. http://www.insideprivacy.com/health-privacy/ten-key-take-aways-from-the-white-house-big-data-report/ ) о том, что рабочая группа Белого дома по большим данным опубликовала в мае 2014 года свой доклад по этому вопросу. Федеральная комиссия по торговле (FTC) также рассматривала эти вопросы в ходе проведенного ею в сентября 2014 года семинара по дискриминации в связи с использованием больших данных (см. http://www.insideprivacy.com/united-states/federal-trade-commission/ftc-public-workshop-on-big-data-discrimination-assessing-the-current-environment/ ).

Проблема больших данных в различных отраслях

К 2015 году несмотря на малый срок существования сектора Big Data, уже есть оценки эффективного использования этих технологий, основанные на реальных примерах. Один из самых высоких показателей относится к энергетике – по оценкам аналитиков, аналитические технологии Big Data способны на 99% повысить точность распределения мощностей генераторов.

Big data для операторов связи

Если говорить о методах больших данных, направленных на получение эффекта для бизнеса оператора связи, то здесь в общем случае рассматриваются четыре основные направления — первые три нацелены на улучшение внутренней работы самой компании, а последнее является дополнительным рыночными продуктом для внешних клиентов[5]:

  • высокоточный маркетинг (рrecise marketing) — адресное предложение продуктов и услуг тем потребителям, которые наиболее готовы к их приобретению (новые тарифные планы, дополнительные сервисы, платежные терминалы и пр.);

  • управление качеством услуг для клиента (Customer Experience Management) для повышения его удовлетворенности с целью предотвращения оттока пользователей;

  • оптимизация внутренней работы оператора и планирование развития (ROI-based Network Optimization and Planning) на основе учета всех объективных факторов и мнений потребителей с целью максимальных гарантий возврата инвестиций в кратчайшие сроки;

  • монетизация информационных активов (Data Asset Monetization) — продажа в той или иной форме (в том числе в виде долевого участия в проектах) имеющихся у оператора данных своим партнерам, чтобы они могли с их помощью решать свои задачи.

Развернув решение больших данных, мобильный оператор смог начать собирать и анализировать существенно больше информации о поведении и интересах своих клиентов, в том числе об интенсивности использования связи и географическом местоположении. Причем все эти сведения можно было увязывать с данными о работе самой сотовой сети, в том числе о ее загрузке, о возникающих сбоях и пр.

Возможности применения подобных методов видны по полученным результатам. Так, в начале 2013 г. эффективность маркетинговых предложений (для клиентов, которые их приняли) при общей массовой рассылке составляла 0,7%. К концу года за счет простой сегментации абонентов (по возрасту, полу, сроку подписки) эта величина была доведена до 4%, а в течение 2014-го повышена сначала до 11% (учет интенсивности использования услуг и местоположение клиентов) и затем до 24% (учет предпочтительных вариантов получения предложения — голосовые звонки, SMS, э-почта, социальные сети и пр.). За год удалось сократить число нерезультативных обращений к клиентам на 11 млн., существенно снизив затраты на рекламные кампании.

На основе анализа 85 параметров поведения абонентов была выделена «группа риска», потенциально готовая к уходу от услуг оператора. Внутри нее также была проведена определенная сегментация, и для каждой категории клиентов выработан комплекс мероприятий по повышению уровня их лояльности (скидки, другие тарифные планы, подарки и пр.). Заказчик провел исследование, разделив «группу риска» на две подгруппы: с первой проводились специальные действия по удержанию, с другой ничего не делалось. Анализ такой работы за год показал, что компания смогла существенно сократить отток своих действующих потребителей, удержав более 200 тыс. абонентов; при этом нужно учитывать, что стоимость удержания клиента всегда значительно ниже, чем привлечения нового пользователя.

До использования больших данных расширение географической сети оператора фактически выполнялось только на основе информации о плотности застройки и населения, но внедрив это решение, China Unicom перешел к развитию свой деятельности на базе многофакторного анализа, который учитывал такие показатели, как реальная загруженность трафика и востребованность услуг (например, с учетом места работы людей), «ценность» клиентов (по уровню жизни), требования к качеству связи (расстояние между станциями приема), востребованность разных категорий услуг (от этого зависит использование различной аппаратуры) и пр.

В плане монетизации клиентских данных для внешних партнеров были приведены два примера: во-первых, оптимизация размещения наружной рекламы, причем как в географическом плане (место проживания, работа или транспортные коммуникации нужных клиентов), так и с учетом времени для динамической рекламы (в зависимости от времени суток, дней недели и сезонов года состав публики может меняться), а во-вторых, аналогичные предложения по развитию торговых сетей (с учётом местоположения и ассортимента). Кроме того, очень выгодным оказывается целевая рассылка мобильной рекламы в реальном времени в соответствии с графиком занятости человека, его интересов и физического пребывания (например, рассылка информации о фильмах-боевиках, которыми клиент интересуется, именно в его свободное время и с учетом близлежащих кинотеатров). Общий отраслевой опыт показывает, что такие адресные методы позволяют повышать доходы от распространения рекламы в разы.

2014

Gartner развеивает мифы о "Больших данных"

В аналитической записке осени 2014 года Gartner перечислен ряд распространенных среди ИТ-руководителей мифов относительно Больших Данных и приводятся их опровержения.

  • Все внедряют системы обработки Больших Данных быстрее нас

Интерес к технологиям Больших Данных рекордно высок: в 73% организаций, опрошенных аналитиками Gartner в этом году, уже инвестируют в соответствующие проекты или собираются. Но большинство таких инициатив пока еще на самых ранних стадиях, и только 13% опрошенных уже внедрили подобные решения. Сложнее всего — определить, как извлекать доход из Больших Данных, решить, с чего начать. Во многих организациях застревают на пилотной стадии, поскольку не могут привязать новую технологию к конкретным бизнес-процессам.

  • У нас так много данных, что нет нужды беспокоиться о мелких ошибках в них

Некоторые ИТ-руководители считают, что мелкие огрехи в данных не влияют на общие результаты анализа огромных объемов. Когда данных много, каждая ошибка в отдельности действительно меньше влияет на результат, отмечают аналитики, но и самих ошибок становится больше. Кроме того, большая часть анализируемых данных — внешние, неизвестной структуры или происхождения, поэтому вероятность ошибок растет. Таким образом, в мире Больших Данных качество на самом деле гораздо важнее.

  • Технологии Больших Данных отменят нужду в интеграции данных

Большие Данные обещают возможность обработки данных в оригинальном формате с автоматическим формированием схемы по мере считывания. Считается, что это позволит анализировать информацию из одних и тех же источников с помощью нескольких моделей данных. Многие полагают, что это также даст возможность конечным пользователям самим интерпретировать любой набор данных по своему усмотрению. В реальности большинству пользователей часто нужен традиционный способ с готовой схемой, когда данные форматируются соответствующим образом, и имеются соглашения об уровне целостности информации и о том, как она должна соотноситься со сценарием использования.

  • Хранилища данных нет смысла использовать для сложной аналитики

Многие администраторы систем управления информацией считают, что нет смысла тратить время на создание хранилища данных, принимая во внимание, что сложные аналитические системы пользуются новыми типами данных. На самом деле во многих системах сложной аналитики используется информация из хранилища данных. В других случаях новые типы данных нужно дополнительно готовить к анализу в системах обработки Больших Данных; приходится принимать решения о пригодности данных, принципах агрегации и необходимом уровне качества — такая подготовка может происходить вне хранилища.

  • На смену хранилищам данных придут озера данных

В реальности поставщики вводят заказчиков в заблуждение, позиционируя озера данных (data lake) как замену хранилищам или как критически важные элементы аналитической инфраструктуры. Основополагающим технологиям озер данных не хватает зрелости и широты функциональности, присущей хранилищам. Поэтому руководителям, отвечающим за управление данными, стоит подождать, пока озера достигнут того же уровня развития, считают в Gartner.

Big data и банки

«Аналитика больших данных позволит банковским организациям лучше контролировать информацию внутри компании и выявлять признаки мошенничества намного быстрее, чем это было возможно раньше», – заявила в начале 2014 года Авива Литан (Avivah Litan), ведущий аналитик и вице-президент Gartner Research.

Массовое внедрение технологий анализа больших данных осложнено тем, что банки зачастую используют разрозненные или просто устаревшие платформы. Тем не менее, уже есть примеры того, как сотрудники, отвечающие за информационную безопасность, предотвращали мошеннические операции. Помимо технологии Big Data эксперты также считают, что бороться с мошенниками позволяет внедрение современных систем идентификации пользователей. Одним из примеров является так называемая непрерывная поведенческая идентификация, анализирующая поведение клиентов на протяжении длительного времени. Это делается при помощи привязки счета к мобильному телефону.

Большие данные способны решать практически все ключевые задачи банков: привлечение клиентов, повышение качества услуг, оценка заемщиков, противодействие мошенничеству и др. Повышая скорость и качество формирования отчетности, увеличивая глубину анализа данных, участвуя в противодействии отмыванию незаконных средств, эти технологии помогают банкам соответствовать требованиям регуляторов[6].

Основные задачи, для которых банки используют технологии анализа больших данных, – это оперативное получение отчетности, скоринг, недопущение проведения сомнительных операций, мошенничества и отмывания денег, а также персонализация предлагаемых клиентам банковских продуктов.

Технологии больших данных применяются в основном для анализа клиентской среды. Дмитрий Шепелявый, заместитель генерального директора SAP СНГ, приводит несколько примеров: «Американский банк PNC данные о поведении своих клиентов на сайтах, информацию о покупках и образе жизни конвертирует в политику гибкого начисления процентных ставок, которая в итоге выражается в цифрах роста капитализации. Commonwealth Bank of Australia (CBA) анализирует все транзакции своих вкладчиков, дополняя этот анализ сбором данных о них в социальных сетях. Связав эти потоки данных, банк добился значительного снижения процента неуплаты по кредитам. А в России интересен опыт Уральского банка реконструкции и развития – они стали работать с информацией по клиентской базе для создания кредитных предложений, вкладов и других услуг, которые могут максимально заинтересовать конкретного клиента. Примерно за год применения ИТ-решений розничный кредитный портфель УБРиР вырос примерно на 55%»[7].

В «Альфа-банке», в 2013 г. в банке была успешно завершена разработка прототипа решения по взаимодействию с социальными сетями, сейчас идет несколько пилотных проектов, исследующих различные бизнес-гипотезы.

«Банки обладают колоссальным объемом структурированной клиентской информации, которая может быть успешно обработана с применением технологий больших данных. Это позволяет на основании анализа клиентского поведения, клиентской активности и клиентских операций быстро принимать решения и делать высоко релевантные предложения банковских продуктов», – об этом рассказал Максим Азрильян, главный технический архитектор центра инноваций и технологий электронного бизнеса «Альфа-банка».

Big data нужна в здравоохранении

Внедрение мобильных технологий в сфере здравоохранения и распространение M2M-устройств будет способствовать расширению практики применения Big Data в медицинской сфере, однако лишь немногие учреждения здравоохранения готовы к работе с большими данными. К такому выводу пришли эксперты компании MeriTalk, которая провела опрос среди 150 топ-менеджеров из сферы государственного здравоохранения США. Авторы исследования (весна 2014 года) MeriTalk попытались выяснить, насколько руководители медицинской сферы готовы работать с Big Data и какие шаги уже сделали навстречу этим новым технологиям.

Менее 25% топ-менеджеров государственных медицинских учреждений считают, что их ведомства готовы работать с Big Data. Только 34% опрошенных отметили, что их ведомство вложило средства в технологии, позволяющие оптимизировать процесс сбора данных. Еще меньше руководителей (29%) наняли ИТ-специалистов, которые занимаются управлением данных и их анализом. 29% провели обучение ключевых менеджеров работе с Big Data.

При этом более половины опрошенных (59%) уверены, что успешная работа с Big Data станет ключевым фактором повышения эффективности работы их учреждения в ближайшие пять лет. 63% топ-менеджеров считают, что технологии больших данных позволят более эффективно отслеживать состояние здоровья пациентов, а 60% отмечают, что благодаря большим данным улучшится профилактическая работа.

В медицинских учреждениях технологии M2M пока не нашли широкого применения: их освоили всего 15% топ-менеджеров. Впрочем, 53% опрошенных планируют исправить эту ситуацию в ближайшие два года. По словам аналитиков MeriTalk, именно технологии M2M могут сыграть наибольшую роль в улучшении качества заботы о пациентах и удаленного мониторинга состояния их здоровья.

Частные и государственные учреждения уже активно используют большие данные для создания персонифицированных предложений для своих клиентов. Но актуально ли это для такой отрасли как здравоохранение? Ответ утвердительный! Ведь понимание потребностей пациентов напрямую зависит от того, насколько активно применяются новые технологии в медицине[8].

Согласно исследованию, проведенному компанией McKinsey&Company в 2014 г., 75% опрошенных пациентов хотели бы использовать цифровые сервисы – вопреки устоявшемуся мнению о том, что большинство населения неохотно обращается к ним при лечении.

Чтобы удовлетворить потребность пациентов в качественном медицинском обслуживании, во многих странах здравоохранение все больше обращается в сторону smart технологий. В Германии, например, уже сегодня благодаря технологиям Больших данных онкологические заболевания либо предрасположенность к ним выявляются по анализу крови пациентов и доноров. В результате своевременной диагностики существенно снижаются затраты государства и самих людей, а также невероятно повышается эффективность лечения. Ведь один из самых главных врагов пациента, запустившего болезнь – время. Обратимся к упомянутой ранее онкологии. Диагностика и подбор нужной схемы лечения может забрать драгоценные минуты, которые так важны в оперативном реагировании при обнаружении злокачественных образований

Большие данные, помимо уже известных и распространенных задач, можно использовать в том числе для борьбы с заболеваниями и отслеживания роста эпидемий, считают эксперты. Так, еще за девять дней до того, как вспышка вируса Эбола была официально объявлена эпидемией, группа исследователей и ученых из Бостона при помощи больших данных смогла обнаружить распространение геморрагической лихорадки в Гвинее.

Картину движения по Западной Африке эпидемии смертельного вируса составил стартап HealthMap, работающий на базе алгоритма, учитывающего упоминания в социальных медиа, сводки местных новостей и другие данные, доступные в Сети[9].

Системы больших данных могут оказаться полезными в первую очередь не для обнаружения уже проявившихся вспышек тех или иных заболеваний, а для предсказания потенциально возможных эпидемий такого рода благодаря анализу доступной информации. В этом случае практически те же технологии, которые помогают маркетологам демонстрировать потребителям таргетированную рекламу или предлагать музыку и видео для просмотра, могут быть использованы для борьбы против инфекционных заболеваний, таких как Эбола.

Зачем Big data в автомобилестроении

IDC: ЖКХ в США в самом начале использования Big data

Компания IDC Energy Insights опубликовала весной 2014 года доклад, посвященный готовности коммунальных служб США к работе с технологиями Big Data. В рамках исследования IDC изучила работу 760 американских организаций, включая 59 компаний сферы ЖКХ с доходом более $500 млн. Цель доклада – помочь компаниям оценить свою степень готовности к работе с технологиями Big Data.

Эксперты IDC выделили ключевые критерии, по которым можно оценивать способность компании работать с технологиями Big Data. В докладе также содержатся рекомендации по улучшению ситуации с технологиями больших данных в этой индустрии в краткосрочной и долгосрочной перспективах.

Авторы доклада считают, что готовность к применению технологии Big Data складывается из пяти составляющих: желание, накопленные данные, адаптация технологий, отлаженные процессы и персонал. Успех компании в области больших данных в равной степени зависит от зрелости компании во всех этих областях.

По оценке IDC, коммунальный сектор находится на начальных стадиях освоения технологий Big Data. Так, готовность двух третей компаний к работе с большими данными IDC оценивает как «среднюю». «Низкую» оценку зрелости получило в четыре раза больше компаний, чем «высокую».

Сегодня Big Data и аналитика применяются в сфере коммунальных услуг для решения целого ряда задач. Эти технологии помогают оптимизировать производство энергии, операционную эффективность и работу с клиентами. Аналитика позволяет заблаговременно готовиться к отключениям, а также оценивать энергетический рынок, прогнозировать спрос и вести подсчет финансовых показателей.

Big data продвигают в страховании

Страховые компании заинтересованы в том, чтобы применять технологии Big Data, однако лишь немногие начали активно работать в этом направлении. Такие данные в совместном исследовании приводят компании Bravura Solutions и Financial Services Council (весна 2014 года). Исследователи опросили ряд ведущих страховых компаний об их планах по модернизации и внедрению решений Big Data.

Согласно результатам опроса, 67% страховых компаний считают, что у них есть лишь ограниченный доступ к пользовательским данным. По мнению респондентов, этих данных достаточно, чтобы персонализировать взаимодействие с клиентами, но недостаточно, чтобы прогнозировать их поведение. Впрочем, для более чем 56% респондентов именно создание персонализированных кампаний является основной целью развития маркетинговых коммуникаций.

Около 30% опрошенных страховых компаний уже сегодня используют технологии Big Data и аналитику для того, чтобы предугадывать нужды клиентов и создавать персонализированные сообщения. Главной проблемой для тех компаний, которые пока не делают этого, становится отсутствие необходимых систем, говорится в исследовании. У страховых компаний есть массивы данных, однако пока нет возможности в полной мере воспользоваться ими. Большинство страховых компаний так или иначе заинтересованы в модернизации своих ИТ-систем в ближайшие пять лет. Однако для 23,7% организаций вопрос о модернизации пока не стоит.

Как использовать Big data в э-коммерции

Как использовать Big data в розничной торговле

Оффлайн-розница использует большие данные, чтобы анализировать поведение покупателей, проектировать маршруты следования по торговому залу, правильно расставить товары, планировать закупки, и, в конечном итоге, повысить продажи. В онлайн-рознице на больших данных строится сам механизм продаж: пользователям предлагают товары на базе предыдущих покупок и их персональных предпочтений, информация о которых собирается, например, в соцсетях. В обоих случаях анализ больших данных помогает сократить издержки, повысить лояльность клиентов и охватить большую аудиторию. Все это – лишь базовые возможности, которые можно реализовать с помощью технологий больших данных[10].

Несмотря на экономический кризис, ожидается рост числа проектов по внедрению больших данных, в том числе и в ритейле. Хотя внедрение новых технологий грозит не только прибылью, но и высокими рисками, компании уже ознакомились с успехами более решительных коллег по бизнесу. В сложной экономической ситуации на первый план выходит необходимость экономить и повышать лояльность клиентов. Как раз с этими задачами и призваны справляться решения для работы с большими данными.

В борьбе за клиента ритейлеры все чаще обращаются к инновационным технологиям, таким как анализ больших данных, электронная коммерция, омниканальные сервисы, технологии RFID и т.д. В Корее, например, недавно был открыт первый в мире виртуальный магазин прямо на платформе метрополитена. Сканируя QR-коды с панелей, оклеенных изображениями различных товаров, жители Сеула складывают в свою виртуальную корзину выбранный товар, который затем доставляют им домой в удобное время. Подобные технологии, вероятно, нашли бы отклик у вечно спешащих москвичей[11].

Крупнейший ритейлер Великобритании Tesco экспериментирует с дополненной реальностью. Для покупателей было разработано приложение, которое позволяет им оперативно получать информацию о калорийности тех или иных продуктов и прочие сведения, не уместившиеся на ценнике, просто наводя камеру планшета на полку и делая снимок.

Еще один пример: до недавнего времени интернет-продажи одежды и обуви не были достаточно распространены именно из-за невозможности осуществить примерку в виртуальном пространстве. У покупателя был высокий риск ошибиться с размером или фасоном. Но ситуация меняется. Скоро в интернет-магазине eBay станет доступна виртуальная примерочная, позволяющая покупателям «примерять» понравившуюся из сетевого каталога одежду на трехмерную модель собственного тела. Аналогичный проект виртуальной примерочной был представлен компанией SAP на выставке «Открытые Инновации» в 2013 г. и получил высокую оценку экспертов. Благодаря таким технологиям человек может с помощью своей фотографии и введенных параметров (в т.ч. рост, размер) примерить и заказать новую одежду, оплатив ее с помощью мобильного телефона.

Развитие мобильных технологий можно назвать одним из главных трендов, оказывающих влияние на развитие ритейла. Смартфон стал самым важным инструментом в торговле, считают аналитики IDC, и его значение будет только расти. 69% потребителей уже считают, что смартфон просто необходим для совершения покупок и намного увеличивает удовольствие от процесса. Никто не может отрицать удобство заказа из любой точки мира и оплаты с помощью интернета или телефона любым подходящим способом. В результате активно развивается концепция «Omni Channel» – когда реальные и виртуальные каналы продаж объединяются в единый бизнес-процесс. Уже сегодня любой покупатель хочет иметь возможность, например, начать покупку в интернете, сделав там заказ, а закончить оплатой в магазине и наоборот.

Нельзя отрицать и тот факт, что конкуренция в ритейле увеличивается за счет появления «цифровых покупателей». Этот новый класс клиентов привык выбирать лучшие предложения на рынке одним нажатием кнопки и находится в постоянном поиске персонализированных акций и промо-цен. Ритейлеры вынуждены искать инструменты, которые позволят создавать персонализированные предложения и направленно продвигать товар. Покупательский интерфейс Amazon.com – хрестоматийный пример такого сервиса. Каждый раз, заходя на сайт, клиент получает разнообразные предложения, основанные на анализе истории прошлых покупок, просмотренных страниц, оставленных отзывов и т.п. Огромные объемы информации система обрабатывает за доли секунды, каждый раз преобразуя их в таргетированное предложение, ведущее в итоге к росту продаж.

Accenture: 92% внедривших системы больших данных, довольны результатом

Согласно исследованию Accenture (Аксенчер) (осень 2014 года), 60% компаний уже успешно завершили как минимум один проект, связанный с большими данными. Подавляющее большинство (92%) представителей этих компаний оказалось довольно результатом, а 89% заявили, что большие данные стали крайне важной частью преобразования их бизнеса. Среди остальных опрошенных 36% не задумывались о внедрении данной технологии, а 4% пока не закончили свои проекты.

В исследовании Accenture приняло участие более 1000 руководителей компаний из 19 стран мира. В основу исследования легли данные опроса Economist Intelligence Unit среди 1135 респондентов по всему миру[12].

Среди главных преимуществ больших данных опрошенные назвали:

  • «поиск новых источников дохода» (56%),
  • «улучшение опыта клиентов» (51%),
  • «новые продукты и услуги» (50%) и
  • «приток новых клиентов и сохранение лояльности старых» (47%).

При внедрении новых технологий многие компании столкнулись с традиционными проблемами. Для 51% камнем преткновения стала безопасность, для 47% — бюджет, для 41% — нехватка необходимых кадров, а для 35% — сложности при интеграции с существующей системой. Практически все опрошенные компании (около 91%) планируют в скором времени решать проблему с нехваткой кадров и нанимать специалистов по большим данным.

Компании оптимистично оценивают будущее технологий больших данных. 89% считают, что они изменят бизнес столь же сильно, как и интернет. 79% респондентов отметили, что компании, которые не занимаются большими данными, потеряют конкурентное преимущество.

Впрочем, опрошенные разошлись во мнении о том, что именно стоит считать большими данными. 65% респондентов считают, что это «большие картотеки данных», 60% уверены, что это «продвинутая аналитика и анализ», а 50% — что это «данные инструментов визуализации».

2013

Эксперты: Пик моды на Big Data

Все без исключения вендоры на рынке управления данными в это время ведут разработку технологий для менеджмента Big Data. Этот новый технологический тренд также активно обсуждается профессиональными сообществом, как разработчиками, так и отраслевыми аналитиками и потенциальными потребителями таких решений.

Как выяснила компания Datashift, по состоянию на январь 2013 года волна обсуждений вокруг «больших данных» превысила все мыслимые размеры. Проанализировав число упоминаний Big Data в социальных сетях, в Datashift подсчитали, что за 2012 год этот термин употреблялся около 2 млрд раз в постах, созданных около 1 млн различных авторов по всему миру. Это эквивалентно 260 постам в час, причем пик упоминаний составил 3070 упоминаний в час.

Обсуждения Big Data в сети идут весьма активно. Причем, как видно из представленных выше круговых диаграмм, пик обсуждений только нарастает: если в первом квартале 2012 года насчитывалось более 504 тыс. упоминаний термина, то в четвертом квартале – уже более 800 тыс. Главные темы обсуждений применительно к большим данным – мифы и реальность, опыт использования, человеческий фактор, возврат инвестиций, новые технологии. Среди вендоров чаще всего упоминались компании Apache, 10gen, IBM, HP и Teradata.

Gartner: Каждый второй ИТ-директор готов потратиться на Big data

После нескольких лет экспериментов с технологиями Big data и первых внедрений в 2013 году адаптация подобных решений значительно возрастет, прогнозируют в Gartner[13]. Исследователи опросили ИТ-лидеров во всем мире и установили, что 42% опрошенных уже инвестировали в технологии Big data или планируют совершить такие инвестиции в течение ближайшего года (данные на март 2013 года).

Компании вынуждены потратиться на технологии обработки больших данных, поскольку информационный ландшафт стремительно меняется, требую новых подходов к обработки информации. Многие компании уже осознали, что большие массивы данных являются критически важными, причем работа с ними позволяет достичь выгод, не доступных при использовании традиционных источников информации и способов ее обработки. Кроме того, постоянное муссирование темы «больших данных» в СМИ подогревает интерес к соответствующим технологиям.

Фрэнк Байтендидк (Frank Buytendijk), вице-президент Gartner, даже призвал компании умерить пыл, поскольку некоторые проявляют беспокойство, что отстают от конкурентов в освоении Big data.

«Волноваться не стоит, возможности для реализации идей на базе технологий «больших данных» фактически безграничны», - заявил он.

По прогнозам Gartner, к 2015 году 20% компаний списка Global 1000 возьмут стратегический фокус на «информационную инфраструктуру».

В ожидании новых возможностей, которые принесут с собой технологии обработки «больших данных», уже сейчас многие организации организуют процесс сбора и хранения различного рода информации.

Для образовательных и правительственных организаций, а также компаний отрасли промышленности наибольший потенциал для трансформации бизнеса заложен в сочетании накопленных данных с так называемыми dark data (дословно – «темными данными»), к последним относятся сообщения электронной почты, мультимедиа и другой подобный контент. По мнению Gartner, в гонке данных победят именно те, кто научится обращаться с самыми разными источниками информации.

Опрос Cisco: Big Data поможет увеличить ИТ-бюджеты

В ходе исследования (весна 2013 года) под названием Cisco Connected World Technology Report, проведенного в 18 странах независимой аналитической компанией InsightExpress, были опрошены 1 800 студентов колледжей и такое же количество молодых специалистов в возрасте от 18 до 30 лет. Опрос проводился, чтобы выяснить уровень готовности ИТ-отделов к реализации проектов Big Data и получить представление о связанных с этим проблемах, технологических изъянах и стратегической ценности таких проектов.

Большинство компаний собирает, записывает и анализирует данные. Тем не менее, говорится в отчете, многие компании в связи с Big Data сталкиваются с целым рядом сложных деловых и информационно-технологических проблем. К примеру, 60 процентов опрошенных признают, что решения Big Data могут усовершенствовать процессы принятия решений и повысить конкурентоспособность, но лишь 28 процентов заявили о том, что уже получают реальные стратегические преимущества от накопленной информации.

Более половины опрошенных ИТ-руководителей считают, что проекты Big Data помогут увеличить ИТ-бюджеты в их организациях, так как будут предъявляться повышенные требования к технологиям, персоналу и профессиональным навыкам. При этом более половины респондентов ожидают, что такие проекты увеличат ИТ-бюджеты в их компаниях уже в 2012 году. 57 процентов уверены в том, что Big Data увеличит их бюджеты в течение следующих трех лет.

81 процент респондентов заявили, что все (или, по крайней мере, некоторые) проекты Big Data потребуют применения облачных вычислений. Таким образом, распространение облачных технологий может сказаться на скорости распространения решений Big Data и на ценности этих решений для бизнеса.

Компании собирают и используют данные самых разных типов, как структурированные, так и неструктурированные. Вот из каких источников получают данные участники опроса (Cisco Connected World Technology Report):

  • 74 процента собирают текущие данные;
  • 55 процентов собирают исторические данные;
  • 48 процентов снимают данные с мониторов и датчиков;
  • 40 процентов пользуются данными в реальном времени, а затем стирают их. Чаще всего данные в реальном времени используются в Индии (62 процента), США (60 процентов) и Аргентине (58 процентов);
  • 32 процента опрошенных собирают неструктурированные данные – например, видео. В этой области лидирует Китай: там неструктурированные данные собирают 56 процентов опрошенных.

Почти половина (48 процентов) ИТ-руководителей прогнозирует удвоение нагрузки на их сети в течение ближайших двух лет. (Это особенно характерно для Китая, где такой точки зрения придерживаются 68 процентов опрошенных, и Германии – 60 процентов). 23 процента респондентов ожидают утроения сетевой нагрузки на протяжении следующих двух лет. При этом лишь 40 процентов респондентов заявили о своей готовности к взрывообразному росту объемов сетевого трафика.

27 процентов опрошенных признали, что им необходимы более качественные ИТ-политики и меры информационной безопасности.

21 процент нуждается в расширении полосы пропускания.

Big Data открывает перед ИТ-отделами новые возможности для наращивания ценности и формирования тесных отношений с бизнес-подразделениями, позволяя повысить доходы и укрепить финансовое положение компании. Проекты Big Data делают ИТ-подразделения стратегическим партнером бизнес-подразделений.

По мнению 73 процентов респондентов, именно ИТ-отдел станет основным локомотивом реализации стратегии Big Data. При этом, считают опрошенные, другие отделы тоже будут подключаться к реализации этой стратегии. Прежде всего, это касается отделов финансов (его назвали 24 процента респондентов), научно-исследовательского (20 процентов), операционного (20 процентов), инженерного (19 процентов), а также отделов маркетинга (15 процентов) и продаж (14 процентов).

IBM: Big data нужна в маркетинге

Когда конкуренция обостряется, для компаний важно предлагать клиентам свои услуги в тот момент, когда они наиболее востребованы, причем делать это быстро. Поэтому роль маркетинга возрастает - это уже не побочная ветвь бизнеса, как было раньше. Согласно данным исследования IBM, 63% главных исполнительных директоров пользуются помощью директоров по маркетингу (CMO) в выработке своей бизнес-стратегии. По уровню вовлеченности в этот процесс CMO опережают только главные финансовые директора с показателем 72%.

Теперь маркетологи могут воспользоваться современными технологиями big data и мощной аналитикой, что многократно усиливает возможности маркетинговых подразделений. Если раньше в их распоряжении были небольшие фрагменты данных, на основном которых приходилось выстраивать картину целого, да и сами данные подчас хранились там, откуда извлечь их было проблематично, то теперь положение дел изменилось.

Директора по маркетингу комбинируют данные из внутренних и внешних источников. Во-первых, люди сами о себе сообщают много информации, например, в социальных сетях. Там можно отслеживать их предпочтения или критику услуг. Анализ таких данных позволяет делать клиентам персонифицированные предложения. Особенно важно это для организаций, относящихся к сектору СМБ. Более того, небольшие компании подчас вынуждены открывать у себя новые направления бизнеса, если это требуется их клиентам.

Корпорация IBM ежегодно, начиная с 2004 года, проводит исследование, в котором опрашиваются директора компаний. В новом исследовании, которое назвали «Принимая вызов: Каким образом CMO могут начать заполнение информационных брешей» приняли участие более пятисот главных директоров по маркетингу компаний из 56 стран и 19 отраслей со всего мира.

Результаты исследования показали, что 94% опрошенных считают, что аналитика будет играть важную роль в достижении поставленных целей. Вместе с тем, возросло число директоров (82% респондентов по сравнению с 71% тремя годами ранее), которые полагают, что их организации недостаточно подготовлены к извлечению реальной экономической выгоды из взрывного роста данных.

Исследование также показало - когда директор по маркетингу тесно взаимодействует с директором по информационным технологиям, предприятие, как правило, функционирует более успешно. Приоритеты директоров по маркетингу сейчас соответствуют потребностям цифровой экономики. В 2013 году впервые на 1 место в числе приоритетов вышел пункт «развитие технологий».

Еще один факт: 94% руководителей отделов маркетинга считают, что ключевым фактором будущего успеха будут мобильные технологии. Три года назад такое мнение высказали 80% респондентов. Многие участники опроса – 58% респондентов заявили, что могут заниматься делами бизнеса независимо от своего местонахождения или используемого устройства.

Gartner: Для управления большими данными нужны миллионы новых рабочих мест

Мировые ИТ расходы достигнут $3,7 млрд к 2013 году, что на 3,8% больше расходов на информационные технологии в 2012 году (прогноз на конец года составляет $3,6 млрд). Сегмент больших данных (big data) будет развиваться гораздо более высокими темпами, говорится в отчете Gartner[14].

К 2015 году 4,4 млн рабочих мест в сфере информационных технологий будет создано для обслуживания больших данных, из них 1,9 млн рабочих мест – в США. Более того, каждое такое рабочее место повлечет за собой создание трех дополнительных рабочих мест за пределами сферы ИТ, так что только в США в ближайшие четыре года 6 млн человек будет трудиться для поддержания информационной экономики.

По мнению экспертов Gartner, главная проблема состоит в том, что в отрасли для этого недостаточно талантов: как частная, так и государственная образовательная система, например, в США не способны снабжать отрасль достаточным количеством квалифицированных кадров. Так что из упомянутых новых рабочих мест в ИТ кадрами будет обеспечено только одно из трех.

Аналитики полагают, что роль взращивания квалифицированных ИТ кадров должны брать на себя непосредственно компании, которые в них остро нуждаются, так как такие сотрудники станут пропуском для них в новую информационную экономику будущего.

2012

Первый скепсис в отношении "Больших данных"

Аналитики компаний Ovum и Gartner предполагают, что для модной в 2012 году темы больших данных может настать время освобождения от иллюзий.

Термином «Большие Данные», в это время как правило, обозначают постоянно растущий объем информации, поступающей в оперативном режиме из социальных медиа, от сетей датчиков и других источников, а также растущий диапазон инструментов, используемых для обработки данных и выявления на их основе важных бизнес-тенденций.

«Из-за шумихи (или несмотря на нее) относительно идеи больших данных производители в 2012 году с огромной надеждой смотрели на эту тенденцию», — отметил Тони Байер, аналитик Ovum.

Байер сообщил, что компания DataSift провела ретроспективный анализ упоминаний больших данных в Twitter за 2012 год. Ограничивая поиск производителями, аналитики хотели сфокусироваться на восприятии этой идеи рынком, а не широким сообществом пользователей. Аналитики выявили 2,2 млн твитов от более чем 981 тыс. авторов.

Эти данные различались в разных странах. Хотя общепринято убеждение, что США лидирует по показателю установленных платформ для работы с большими данными, пользователи из Японии, Германии и Франции часто были более активны в обсуждениях.

Идея Больших Данных привлекла столь большое внимание, что об этом широко писала даже бизнес-пресса, а не только специализированные издания.

Число положительных отзывов о больших данных со стороны производителей в три раза превышало число отрицательных, хотя в ноябре в связи с покупкой компанией HP компании Autonomy наблюдался всплеск негатива.

Концепцию больших данных ожидают намного более суровые времена, хотя, миновав их, эта идеология достигнет зрелости.

«Для сторонников больших данных наступает время расставания с иллюзиями», — пояснила Светлана Сикулар, аналитик Gartner. Она сослалась на обязательную стадию, входящую в классическую кривую цикла популярности (Hype Cycle), которую используют в Gartner.

Даже среди тех клиентов, которые добились наибольших успехов с использованием Hadoop, многие «утрачивают иллюзии».

«Они отнюдь не чувствуют, что находятся впереди других, и полагают, что успех выпадает другим, в то время как они переживают не лучшие времена. У этих организаций потрясающие идеи, а теперь они разочарованы из-за трудностей в выработке надежных решений», — сказала Сикулар.

Впрочем, источником оптимизма для сторонников больших данных в это время может быть то, что следующий цикл на кривой популярности, а также завершающие этапы имеют весьма многообещающие названия, а именно «склон просвещения» и «плато продуктивности».

Медленные СХД сдерживают развитие "Больших данных"

Если производительность современных вычислительных систем за несколько десятилетий выросла на многие порядки и не идет ни в какое сравнение с первыми персональными ПК образца начала 1980-х гг. прошлого столетия, то с СХД дела обстоят гораздо хуже. Безусловно, доступные объемы многократно увеличились (впрочем, они по-прежнему в дефиците), резко снизилась стоимость хранения информации в пересчете на бит (хотя готовые системы по-прежнему слишком дорогие), однако скорость извлечения и поиска нужной информации оставляет желать лучшего.

Если не брать в рассмотрение пока еще слишком дорогие и не вполне надежные и долговечные флэш-накопители, технологии хранения информации не очень далеко ушли вперед. По-прежнему приходится иметь дело с жесткими дисками, скорость вращения пластин которых даже в самых дорогих моделях ограничена на уровне 15 тыс. об./мин. Коль скоро речь идет о больших данных, очевидно, немалое их количество (если не подавляющее) размещается на накопителях со скоростью вращения шпинделя 7,2 тыс. об./мин. Достаточно прозаично и грустно.

Обозначенная проблема лежит на поверхности и хорошо знакома ИТ-директорам компаний. Впрочем, она далеко не единственная[15]:

  • Технологическое отставание.

Большие данные могут превратиться в большую головную боль или открыть большие возможности перед правительственными учреждениями, если только они сумеют ими воспользоваться. К таким выводам пришли во втором квартале 2012 года авторы исследования с неутешительным названием The Big Data Gap (с англ. gap – «расхождение», в данном контексте между теоретическими выгодами и реальным положением дел). По результатам опроса 151 ИТ-директора в ближайшие два года объемы хранимых данных в государственных учреждениях увечатся на 1 Петабайт (1024 Терабайт). В то же время извлекать выгоды из постоянно растущих информационных потоков становится все сложнее, сказывается недостаток доступного пространства в СХД, затрудняется доступ к нужным данным, не хватает вычислительной мощности и квалифицированного персонала.

Находящиеся в распоряжении ИТ-менеджеров технологии и приложения демонстрируют существенное отставание от требований реальных задач, решение которых способно принести большим данным дополнительную ценность. 60% представителей гражданских и 42% оборонных ведомств пока только занимаются изучением феномена больших данных и ведут поиск возможных точек его приложения в своей деятельности. Основной, по мнению ИТ-директоров федеральных органов власти, должно стать повышение эффективности работы – так считают 59% респондентов. На втором месте находится повышение скорости и точности принимаемых решений (51%), на третьем – возможность строить прогнозы (30%).

Как бы там ни было, но потоки обрабатываемых данных продолжают расти. На увеличение объемов хранимой информации в течение последних двух лет указали 87% опрошенных ИТ-директоров, на сохранение этой тенденции в перспективе ближайших двух лет рассчитывают уже 96% респондентов (со средним приростом 64%). Чтобы суметь воспользоваться всеми преимуществами, которые сулят большие данные, принимавшим участие в опросе учреждениям понадобится в среднем три года. Пока только 40% органов власти принимают стратегические решения, основываясь на накапливаемых данных, и лишь 28% взаимодействуют с другими организациями для анализа распределенных данных.

  • Низкое качество данных.

В большом доме всегда сложнее навести порядок, нежели в крохотной квартирке. Здесь можно провести полную аналогию с большими данными, при работе с которыми очень важно придерживаться формулы `мусор на входе — золото на выходе`. К сожалению, современные инструменты управления мастер-данными недостаточно эффективны и нередко приводят к обратным ситуациям (`золото на входе — мусор на выходе`).

  • Метаданные: осведомлен – значит вооружен.

Запрос, который хорошо справляется с поиском сотни строк из миллиона, может не справиться с таблицей из ста миллиардов строк. Если данные часто меняются, крайне важно вести журнал и проводить аудит. Выполнение этих несложных правил позволит располагать важной для выработки методики хранения и работы с данными информации об объеме данных, скорости и частоте его изменения.

  • Скажи мне кто твой друг – и я скажу кто ты.

Правильно интерпретировать скрытые в массивах больших данных тенденции и взаимосвязи могут в буквальном смысле считанные подготовленные специалисты. В некоторой степени их способны заменить фильтры и распознаватели структур, но качество получаемых на выходе результатов пока оставляет желать лучшего.

  • Визуализация.

Одноименный раздел статьи наглядно иллюстрирует всю сложность и неоднозначность используемых подходов для визуализации больших данных. В то же время, представление результатов в доступной для восприятия форме подчас имеет критически важное значение.

  • Время – деньги.

Просмотр данных в реальном времени означает необходимость постоянного пересчета, что далеко не всегда приемлемо. Приходится идти на компромисс и прибегать к ретроспективному способу аналитики, например, на базе кубов, и мириться с отчасти устаревшими результатами.

  • Палить из пушки по воробьям.

Никогда нельзя знать заранее на каком временном промежутке большие данные представляют особую ценность и наиболее релевантны. А ведь сбор, хранение, анализ, создание резервных копий требует немалых ресурсов. Остается оттачивать политику хранения и, конечно, не забывать применять ее на практике.

Медиа-индустрии требуются системы больших данных

Требования к хранению больших данных в индустрии медиа и развлечений по мере роста разрешения видео возрастают очень быстро (июль 2012 г). Распространение стандарта HD и мобильного видео потребления стимулируют возникновение лавинообразного спроса на соответствующий цифровой контент. В связи с этим растет и спрос на решения хранения данных и на HDD для создания архивных видиотек, по данным аналитиков Coughlin Associates[16].

Значительно выросло проникновение конкретно в этой индустрии флеш-накопителей – до 37% в 2012 году. Флеш-память играет одну из ключевых ролей в распространении контента и пост продакшене, отмечают исследователи. В период с 2012 по 2017 год требования к емкости цифровых хранилищ данных в индустрии развлечений вырастет в 5,6 раз, а требования к задействованному объему хранилищ данных в год – в 4 раза (с 22425 Пб до 87152 Пб).

Выручка от реализации систем хранения в отрасли медиа и развлечений вырастут более чем в 1,4 раза в период с 2012 по 2017 годы с $5,6 млрд до $7,8 млрд. Максимально решения для хранения данных в 2012 году были задействованы для сохранения и архивирования нового контента (98%).

По оценкам Coughlin Associates, в 2012 году от общего объема поставленной памяти 43% пришлось на ленточный формат, 41% на HDD, 16% на оптические диски и 0,2% на флеш (которая используется в основном в цифровых камерах и некоторых системах дистрибуции медиа). К 2017 году на ленты будет приходиться только 38%, а на HDD – уже 59%, на оптические диски – 3% и на флеш – 0,3%.

Общая выручка от реализации носителей и устройств, используемых в медиа и индустрии развлечений, вырастет в период с 2012 по 2017 год в 1,3 раза с $774 млн до $974 млн.

Oracle: Решение проблемы больших данных в модернизации ЦОДов

Результаты исследования корпорации Oracle свидетельствуют о том, что многие компании, по всей видимости, застигнуты врасплох бумом «больших данных».

«Борьба с «большими данными», похоже, станет самой большой ИТ-задачей для компаний в ближайшие два года, – считает Луиджи Фрегуйя (Luigi Freguia), старший вице-президент по аппаратному обеспечению Oracle в регионе EMEA. – К концу этого периода они либо справятся с ней, либо значительно отстанут в бизнесе и будут далеки как от угроз, так и от возможностей «больших данных».

Задача по «освоению» больших данных является уникальной, признают в Oracle. Главным же ответом компаний на вызовы big data должна стать модернизация корпоративных центров обработки данных (ЦОД).

Чтобы оценить степень готовности компаний к изменениям внутри ЦОДов, на протяжении почти двух лет Oracle вместе с аналитической компанией Quocirca собирала данные для исследования Oracle Next Generation Data Centre Index (Oracle NGD Index). Этот индекс оценивает прогресс компаний в вопросе продуманного использования ЦОДов для улучшения производительности ИТ-инфраструктуры и оптимизации бизнес-процессов.

Исследование состояло из двух фаз (циклов), и аналитики заметили существенные изменения всех ключевых показателей уже на пороге второго этапа. Средний балл по Oracle NGD Index, который набрали участники опроса из Европы и Ближнего Востока, составил 5,58. Максимальный балл –10,0 – отражает наиболее продуманную стратегию использования ЦОДов.

Средний балл (5,58) стал выше по сравнению с первым циклом исследования, проведенным в феврале 2011 года, – 5,22. Это говорит о том, что компании в ответ на бум «больших данных» увеличивают инвестиции в стратегии развития ЦОДов. Все страны, отрасли и направления в рамках отраслей, охваченные исследованием, повысили индекс Oracle NGD Index по результатам второго цикла в сравнении с первым.

Скандинавия и регион DCH (Германия/ Швейцария) занимают лидирующие позиции по устойчивому развитию с индексом (Sustainability Index) в 6,57. Далее в этом рейтинге следует Бенилюкс (5,76) и, затем, Великобритания с показателем 5,4, что уже ниже среднего уровня.

У России, которая была включена в список стран/регионов только во втором цикле исследования и не участвовала в первом, есть значительный потенциал для роста (показатель 4,62), отмечают аналитики.

Согласно исследованию, российские организации рассматривают поддержку роста бизнеса в качестве важной причины для инвестиций в ЦОДы. Более 60% компаний видят необходимость таких инвестиций сегодня или в ближайшем будущем, предполагая, что организации в скором времени обнаружат, что конкурировать становится невероятно сложно, если и пока не сделать соответствующие инвестиции.

В целом в мире доля респондентов с собственными корпоративными ЦОДами снизилась с 60% по результатам первого цикла исследования до 44% на втором цикле исследования, напротив, использование внешних ЦОДов возросло на 16 пунктов до 56%.

Лишь 8% респондентов заявили, что им не нужны новые мощности ЦОДа в обозримом будущем. 38% респондентов видят необходимость в новых мощностях ЦОДа в пределах двух ближайших лет. Лишь 6,4% респондентов сообщили, что в их организации нет плана устойчивого развития, связанного с использованием ЦОДа. Доля руководителей ЦОДов, которые просматривают копии счетов на оплату электроэнергии, выросла с 43,2% до 52,2% за весь период исследования.

2011

Мода на "Большие данные" расцветает

В 2011 году было принято считать, что современные программные инструменты не в состоянии оперировать большими объемами данных в рамках разумных временных промежутков. Обозначенный диапазон значений носит весьма условный характер и имеет тенденцию к увеличению в большую сторону, поскольку вычислительная техника непрерывно совершенствуется и становится все более доступной. В частности, Gartner в июне 2011 года рассматривает «большие данные» сразу в трех плоскостях – роста объемов, роста скорости обмена данными и увеличения информационного разнообразия[17].

В это время считается, что основной особенностью используемых в рамках концепции больших данных подходов является возможность обработки информационного массива целиком для получения более достоверных результатов анализа. Прежде приходилось полагаться на так называемую репрезентативную выборку или подмножество информации. Закономерно погрешности при таком подходе были заметно выше. Кроме того, такой подход требовал затрат определенного количества ресурсов на подготовку данных для анализа и приведение их к требуемому формату.

Согласно сообщениям СМИ в этот период, "трудно найти отрасль, для которой проблематика больших данных была бы неактуальной". Умение оперировать большими объемами информации, анализировать взаимосвязи между ними и принимать взвешенные решения, с одной стороны, несет потенциал для компаний из различных вертикалей для увеличения показателей доходности и прибыльности, повышения эффективности. С другой стороны, это прекрасная возможность для дополнительного заработка партнерам вендоров – интеграторам и консультантам.

Чтобы подчеркнуть выгоды от развития и внедрения инструментов работы с большими данными компания McKinsey предлагала приведенную ниже статистику. Она имеет привязку преимущественно к рынку США, но ее нетрудно экстраполировать и на другие экономически развитые регионы.

  • Потенциальный объем рынка здравоохранения в США составляет $300 млрд в год. Часть этой огромной суммы идет на внедрение современных ИТ, и очевидно, большие данные не останутся в стороне.

  • Использование инструментов анализа «больших данных» в розничных сетях потенциально может привести к увеличению прибыльности на 60%.

  • Только в США для эффективной обработки «больших данных» понадобится 140-190 тыс. аналитиков и свыше 1,5 млн менеджеров для управления информационными массивами.

  • Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

Почему данные стали большими

В 2011 году апологеты концепции Big Data заявляют, что источников больших данных в современном мире великое множество. В их качестве могут выступать:

  • непрерывно поступающие данные с измерительных устройств,
  • события от радиочастотных идентификаторов,
  • потоки сообщений из социальных сетей,
  • метеорологические данные,
  • данные дистанционного зондирования земли,
  • потоки данных о местонахождении абонентов сетей сотовой связи,
  • устройств аудио- и видеорегистрации.

Собственно, массовое распространение перечисленных выше технологий и принципиально новых моделей использования различно рода устройств и интернет-сервисов послужило отправной точкой для проникновения больших данных едва ли не во все сферы деятельности человека. В первую очередь, научно-исследовательскую деятельность, коммерческий сектор и государственное управление.

Файл:1_BigData1.jpg

Рост объемов данных (слева) на фоне вытеснения аналоговых средств хранения (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

Несколько показательных фактов этого времени:

  • В 2010 году корпорации мира накопили 7 экзабайтов данных, на наших домашних ПК и ноутбуках хранится 6 экзабайтов информации.
  • Всю музыку мира можно разместить на диске стоимостью 600 долл.
  • В 2010 году в сетях операторов мобильной связи обслуживалось 5 млрд телефонов.
  • Каждый месяц в сети Facebook выкладывается в открытый доступ 30 млрд новых источников информации.
  • Ежегодно объемы хранимой информации вырастают на 40%, в то время как глобальные затраты на ИТ растут всего на 5%.
  • По состоянию на апрель 2011 года в библиотеке Конгресса США хранилось 235 терабайт данных.
  • Американские компании в 15 из 17 отраслей экономики располагают большими объемами данных, чем библиотека Конгресса США.

Файл:2_BigData.png

Рост вычислительной мощности компьютерной техники (слева) на фоне трансформации парадигмы работы с данными (справа). Источник: Hilbert and López, `The world’s technological capacity to store, communicate, and compute information,`Science, 2011Global

К примеру, датчики, установленные на авиадвигателе, генерируют около 10 Тб за полчаса. Примерно такие же потоки характерны для буровых установок и нефтеперерабатывающих комплексов. Только один сервис коротких сообщений Twitter, несмотря на ограничение длины сообщения в 140 символов, генерирует поток 8 Тб/сут. Если все подобные данные накапливать для дальнейшей обработки, то их суммарный объем будет измеряться десятками и сотнями петабайт. Дополнительные сложности проистекают из вариативности данных: их состав и структура подвержены постоянным изменениям при запуске новых сервисов, установке усовершенствованных сенсоров или развертывании новых маркетинговых кампаний.

Рекомендации ИТ-директорам

Невиданное прежде разнообразие данных, возникающих в результате огромного числа всевозможных транзакций и взаимодействий, предоставляет собой прекрасную фундаментальную базу для бизнеса по уточнению прогнозов, оценке перспектив развития продуктов и целых направлений, лучшего контроля затрат, оценки эффективности – список легко продолжать сколь угодно долго. С другой стороны, большие данные ставят непростые задачи перед любым ИТ-подразделением, писали эксперты 2020vp.com в 2011 году. Мало того, что они принципиально нового характера, при их решении важно учитывать накладываемые бюджетом ограничения на капитальные и текущие затраты.

ИТ-директор, который намерен извлечь пользу из больших структурированных и неструктурированных данных, должен руководствоваться следующими техническими соображениями[18]:

  • Разделяй и властвуй.

Перемещение и интеграция данных необходимы, но оба подхода повышают капитальные и операционные расходы на инструменты извлечения информации, ее преобразования и загрузки (ETL). Поэтому не стоит пренебрегать стандартными реляционными средами, такими как Oracle, и аналитическими хранилищами данных, такими как Teradata.

  • Компрессия и дедупликация.

Обе технологии существенно ушли вперед, например, многоуровневая компрессия позволяет сокращать объем `сырых` данных в десятки раз. Впрочем всегда стоит помнить какая часть сжатых данных может потребовать восстановления, и уже отталкиваясь от каждой конкретной ситуации принимать решение об использовании той же компрессии.

  • Не все данные одинаковы.

В зависимости от конкретной ситуации диапазон запросов для бизнес-аналитики меняется в широких пределах. Часто для получения необходимой информации достаточно получить ответ на SQL-запрос, но встречаются и глубокие аналитические запросы, требующие применения наделенных бизнес-интеллектом инструментов и обладающих полным спектром возможностей приборной доски и визуализации. Чтобы не допустить резкого увеличения операционных расходов, нужно тщательно подойти к составлению сбалансированного списка необходимых патентованных технологий в сочетании с открытым ПО Apache Hadoop.

  • Масштабирование и управляемость.

Организации вынуждены решать проблему разнородности баз данных и аналитических сред, и в этой связи возможность масштабирования по горизонтали и вертикали имеет принципиальное значение. Собственно, как раз легкость горизонтального масштабирования и стала одной из основных причин быстрого распространения Hadoop. Особенно в свете возможности параллельной обработки информации на кластерах из обычных серверов (не требует от сотрудников узкоспециальных навыков) и экономии таким образом инвестиций в ИТ-ресурсы.

Рост спроса на администраторов big data

46% директоров ИТ-служб, опрошенных в конце 2011 года кадровым агентством Robert Half, называют самой востребованной специальностью администрирование баз данных. Администрирование сетей назвали 41% опрошенных, администрирование систем Windows — 36%, техническую поддержку настольных приложений — 33%, а бизнес-аналитику и средства составления отчетов — 28%.

Обработка больших объемов данных становится серьезной проблемой для многих компаний, и это повышает спрос на специалистов по управлению базами данных, заключают в Robert Half. Помимо роста объемов неструктрированных данных (например, сообщений в социальных сетях), спрос повышается из-за подготовки к введению в Европе новых нормативных требований — в том числе стандартов платежеспособности Solvency II для страховых компаний и стандартов капитала и ликвидности Basel III для банковского сектора.

Аналитики Robert Half предсказывают также дефицит специалистов по мобильным и облачным технологиям. Их вывод основан на том, что 38% опрошенных ИТ-директоров главным направлением инвестиций назвали мобильные технологии, а 35% — виртуализацию.

2008: Появление термина "Большие данные"

Непосредственно термин «большие данные» появился в употреблении только в конце 2000-х. Он относится к числу немногих названий, имеющих вполне достоверную дату своего рождения — 3 сентября 2008 года, когда вышел специальный номер старейшего британского научного журнала Nature, посвященный поиску ответа на вопрос «Как могут повлиять на будущее науки технологии, открывающие возможности работы с большими объемами данных?». Специальный номер подытоживал предшествующие дискуссии о роли данных в науке вообще и в электронной науке (e-science) в частности[19].

Можно выявить несколько причин, вызвавших новую волну интереса к большим данным. Объемы информации росли по экспоненциальному закону и ее львиная доля относится к неструктурированным данным. Другими словами, вопросы корректной интерпретации информационных потоков становились все более актуальными и одновременно сложными. Реакция со стороны ИТ-рынка последовала незамедлительно – крупные игроки приобрели наиболее успешные узкоспециализированные компании и начали развивать инструменты для работы с большими данными, количество соответствующих стартапов и вовсе превосходило все мыслимые ожидания.

Наряду с ростом вычислительной мощности и развитием технологий хранения возможности анализа больших данных постепенно становятся доступными малому и среднему бизнесу и перестают быть исключительно прерогативой крупных компаний и научно-исследовательских центров. В немалой степени этому способствует развитие облачной модели вычислений.

В это время ожидается, что с дальнейшим проникновением ИТ в бизнес-среду и повседневную жизнь подлежащие обработке информационные потоки продолжат непрерывно расти. И если в конце 2000-х большие данные – это петабайты, ожидалось, что в будущем придется оперировать с экзабайтами и т.д. Прогнозировалось, что в обозримой перспективе инструменты для работы с такими гигантскими массивами информации все еще будут оставаться чрезмерно сложными и дорогими.

1970-е: Эпоха мейнфреймов - появление концепции больших данных

Сама по себе концепция «больших данных» возникла ещё во времена мэйнфреймов и связанных с ними научных компьютерных вычислений[20]. Как известно, наукоемкие вычисление всегда отличались сложностью и обычно неразрывно связаны с необходимостью обработки больших объемов информации.

См.также

Каталог BI-систем и проектов

Business Intelligence, BI (мировой рынок)

Тенденции развития мирового рынка BI

Business Intelligence (рынок России)

CPM (мировой рынок)

Big Data (мировой рынок)

Self-Service BI

Визуализация данных

Предикативная аналитика

Cloud/SaaS BI

Примечания

  1. Как анализировать большие данные
  2. Большие планы на «большие данные»
  3. Интернет вещей затмил большие данные
  4. США: Белый дом опубликовал отчет о больших данных и дифференциальном ценообразовании
  5. Что могут дать заказчику большие данные?
  6. Инфографика: Что могут большие данные в банках?
  7. Как крупнейшие банки используют большие данные
  8. Дмитрий Шепелявый: Большие данные на службе у здравоохранения
  9. Большие данные могут помочь в борьбе против эпидемии Эболы
  10. Инфографика: Как розница использует большие данные
  11. Большие данные открывают новые каналы розничных продаж
  12. 92% руководителей довольны проектами больших данных
  13. Gartner Survey Finds 42 Percent of IT Leaders Have Invested in Big Data or Plan to Do So
  14. Gartner Says Big Data Creates Big Jobs: 4.4 Million IT Jobs Globally to Support Big Data By 2015
  15. Managing Big Data: Six Operational Challenges
  16. 2012 Digital Storage for Media and Entertainment Report
  17. Gartner Says Solving 'Big Data' Challenge Involves More Than Just Managing Volumes of Data
  18. Making the Most of Big Data
  19. Большие Данные — новая теория и практика
  20. 2012-й: «облачный» год для «больших данных»


TAdviser рекомендует

27 августа, Сб.

Бета
Лидеры по внедрениям ИТ в корпоративном секторе

Добавить: