Данные. Информационные технологии
 
2017/08/08 12:15:57

Данные

Данные — поддающееся многократной интерпретации представление информации в формализованном виде, пригодном для передачи, связи, или обработки (определение по ISO/IEC 2382-1:1993).

Содержание

Как данные стали сырьем XXI века

В этой статье трижды встречается порядковое числительное «четвертая» - четвертая трансформация в представлении данных, четвертая парадигма в науке и «Четвертая промышленная революция». Откуда взялось именно оно – непонятно, однако закономерно то, что все три объединены данными, ставшими критически важным сырьем XXI века. Не случайно данные назвали нефтью «Четвертой промышленной революции». Журналист Леонид Черняк в материале, подготовленном для TAdviser, рассказывает о фундаментальных изменениях в отношении человечества к данным.

Отличие данных от информации

Еще в середине нулевых годов XXI века трудно было представить подобное. О данных, как о составляющей компьютинга, и речи не могло быть. С момента появления компьютеров, то есть с середины сороковых годов XX века, внимание было сосредоточено сначала на аппаратном, а позже и программном обеспечении. Что касается данных, то они рассматривались как нечто очевидное, само собой разумеющееся. В результате сложилась странная односторонность ИТ, отличающая их от других производств. Производство можно представить состоящим из двух вещей: комплекса технологий и сырья, которое, проходя по технологической цепочке, превращается в конечный продукт. В ИТ же технологический процесс преобразования исходных данных в результирующие остается как-бы «за кадром».

На переоценку ценностей, на признание значимости данных и процессов переработки данных, начавшееся примерно в 2010 году, потребовалось всего несколько лет. По иронии судьбы теперь к данным нередко проявляют избыточное внимание. Часть компьютерного и около компьютерного сообщества явно страдает болезненным состоянием, именуемым датаманией (data-mania). Одно из его проявлений - злоупотребление термином «Большие данные».

Еще одно недоразумение, связанное с ИТ, заключается в том, что понятия «данные» и «информация» долгое время рассматривались как синонимы, чему конечно же поспособствовала статистическая теория информации, которую точнее было бы называть теорией передачи данных. Название «теория информации» было предложено Джоном фон Нейманом чрезвычайно скромному в своих притязаниях Клоду Шеннону. В этой теории мерой передаваемой информации служат биты и байты, хотя по определению они относятся к данным, представленным в двоичной системе.

Показательно, что автор на протяжении многих лет, пользуясь возможностями журналиста, при первом удобном случае задавал собеседникам один и тот же вопрос: «В чем вы видите различие между данными и информацией?». Однако, ни разу (!) не получил содержательного ответа. О том, что так называемые информационные технологии имеют дело с данными, а вовсе не с информацией, почти никто не задумывался. Пренебрежение к природе данных привело к тому, что на протяжении десятилетий вплоть до 2010-х годов развивались исключительно инженерные методы, обеспечивающие передачу, хранение и обработку данных. Все, что необходимо было знать о них, сводилось к двоичным или десятичным единицам измерения количества данных, форматам и формам организации (массивы, байты, блоки и файлы).

Но ситуация, скалывающаяся вокруг данных, резко изменилась. Ее отражением стал популярный лозунг «It's the data, stupid», отражающий возрастающую роль данных в современной науке, бизнесе и других отраслях человеческой деятельности. Смещение акцента на данные является следствием величайшей культурной трансформации.

Можно выделить четыре фундаментальных перехода, каждый из которых характеризуется увеличением доступности контента:

  • Изобретение бумаги и переход от глиняных и восковых табличек, пергамента и бересты на практичный и недорогой носитель.
  • Изобретение печатного станка и переход от ручного копирования рукописей к изданиям, тиражируемым машинами.
  • Переход от материальных, чаще всего бумажных носителей, к цифровым; отделение контента от физики.
  • Трансформация контента в данные, которые можно обрабатывать и анализировать автоматически.

Главная особенность последнего в том, что в XXI веке данные абстрагировались от носителя. Были созданы необходимые средства для работы с ними, что открыло неограниченные возможности для извлечения информации из данных.

От данных к знанию, модель DIKW

Справедливости ради надо заметить, что в академической среде о значении данных как источника знаний и их места в системе накопления знаний начали задумываться раньше, чем в бизнесе - примерно с конца восьмидесятых годов XX века. Тогда сложилась ставшая классической четырехзвенная модель DIKW, включающая данные, информацию, знания и глубокое познание (data, information, knowledge, wisdom).

  • Данные получаются из внешнего мира в результате человеческой деятельности или от различных датчиков и других устройств.
  • Информация создается посредством анализа отношений и взаимосвязей между фрагментами данных в результате ответа на вопросы: Кто? Что? Где? Сколько? Когда? Почему?
  • Знания наиболее трудно определяемое понятие, они получаются в результате синтеза полученной информации и человеческого разума.
  • Глубокое понимание (мудрость?) служит основой для принятия решений

Модель DIKW на протяжении нескольких десятилетий оставалась основой для исследований в области, которую называют «Управлением знаниями» (Knowledge Management, KM). Принято считать, что KM изучает процессы создания, сохранения, распределения и применения основных элементов интеллектуального капитала, необходимых для работы организации, позволяющих преобразовать интеллектуальные активы в средства для повышения производительности и эффективности.

Средствами KM так и не удалось получить ощутимые результаты и выйти за пределы общих рассуждений, создав соответствующие инструменты. KM была и остается областью интереса для весьма ограниченного сообщества ученых. Провал KM объясняется несколькими причинами - тем, что желание управлять знаниями опередило время, и тем, что еще не сформировалась потребность в работе со знаниями. Но главное, вне поля зрения KM оказался уровень D из модели DIKW.

Однако из провала KM вовсе не следует, что нет такой проблемы как автоматизация извлечения знаний из данных. Как говорят, «свято место пусто не бывает», и во втором десятилетии XXI века место KM заняло новое направление, получившее не слишком удачное название Data Science. Роль и место Data Science в системе накопления знаний показаны на рисунке ниже.

Традиционный исследователь наблюдает систему непосредственно, а Data Scientist использует накопленные данные

На протяжении тысячелетий люди наблюдали окружающий мир, используя те или иные инструменты и в доступной форме фиксировали знания. Сегодня процесс разделился на накопление данных и анализ этих данных. Яркий пример - современные астрономия или геофизика, где наблюдение с накоплением данных и последующий анализ этих данных являются самостоятельными задачами.

Data Science

Термин Data Science в середине нулевых годов XXI века предложил Уильям Кливленд, профессор университета Пердью, один самых известных специалистов в статистике, визуализации данных и машинном обучении. Примерно тогда же появился международный совет CODATA (International Council for Science: Committee on Data for Science and Technology) и издаваемый им журнал CODATA Data Science Journal. Тогда Data Science определили как дисциплину, объединяющую в себе различные направления статистики, добычу данных (data mining), машинное обучение и применение баз данных для решения сложных задач, связанных с обработкой данных.

Data Science - это зонтичный термин. Под общим названием Data Science собрано множество разных методов и технологий, служащих для анализа больших объемов данных. В строгом науковедческом понимании, например так, как определял науку Крал Поппер, назвать Data Science наукой нельзя. Тем не менее специалисты в области Data Science используют то, что называют научным методом, поэтому их вполне справедливо можно называть Data Scientist. Классический цикл научного метода показан на рисунке ниже.

Цикл научного метода

Общее понятие Data Science делится на два направления. Одно, менее популярное, точнее было бы назвать Data-Intensive Science, а втрое – широко разрекламированное - применение Data Science к бизнесу.

Четвертая парадигма науки

Направление Data-Intensive Science можно перевести как научные исследования со значительным использованием данных. Под этим термином понимают новый стиль исследований с опорой на данные, с широким использованием компьютерных инфраструктур и программного обеспечения для оперирования, анализа и распределения этих данных (data-driven, exploration-centered style of science). Для него астроном и футуролог Алекс Шалаи и выдающийся компьютерный эксперт Джим Грей в 2006 году предложили собственное название – «Четвертая парадигма науки».

Они разделили научное прошлое человечества на три периода использования данных. В античные времена наука ограничивалась описанием наблюдаемых феноменов и логическими выводами, сделанными на основе наблюдений. В XVII веке данных стало больше, и тогда люди начали создавать теории, используя в качестве доказательств те или иные аналитические модели. В XX веке компьютеры открыли возможности для использования методов численного моделирования. Наконец в XXI веке начали складываться научные методы, основанные на анализе данных (eScience), и здесь для работы с колоссальными объемами данных стали применяться синтезирующие теории, статистические и другие методы извлечения полезной информации.

Шалаи и Грей писали: «В будущем работа с большими объемами данных будет предполагать пересылку вычислений к данным, а не загрузку данных в компьютер для последующей обработки». Будущее наступило намного раньше, уже в 2013 году тот же Шалаи писал об эпохе Data-Intensive Science как о свершившемся факте.

К 2017 году методы eScience нашли свое применение не только в таких дата-емких областях, как астрономия, биология или физика. Они нашли свое применение и в гуманитарных науках, существенно расширив область, называемую «Цифровыми гуманитарными науками» (Digital Humanities). Первые работы, где использовались оцифрованные материалы и материалы цифрового происхождения датируются концом сороковых годов XX века. Они объединяют традиционные гуманитарные науки - историю, философию, лингвистику, литературоведение, искусствоведение, археологию, музыковедение и другие, с компьютерными науками. В отдельных университетах, таких как НИУ Высшая школа экономики, анализ данных вводится как обязательный предмет на всех факультетах.

Data Science в бизнесе

Применение методов Data Science в бизнесе вызвано характерным для второго десятилетия XXI века взрывным ростом объемов данных. Его образно называют наводнением данных (data flood), волной данных (data surge) или лавиной данных (data deluge). Информационный взрыв - явление не новое. О нем говорят примерно с середины пятидесятых годов XX века. Прежде рост объемов оставался синхронным развитию по закону Мура, с ним удавалось справляться традиционными технологиями. Но та лавина, которая обрушилась в связи с появлением многочисленных интернет-сервисов и миллиардами пользователей, а также революцией умных датчиков (smart sensor revolution), требует совсем иных подходов. Одних администраторов и управляющих базами данных оказалось недостаточно. Потребовались специалисты или группы специалистов, способные извлекать полезные знания из данных и предоставлять их тем, кто принимает решения. Средства, используемые этими специалистами, показаны на рисунке ниже.

Методы Data Science

Теми средствами, которые используют Data Scientist, можно уподобить ИТ всем обычным технологиям, в том смысле, что на входе будут сырые данные, а на выходе обработанные данные и информация для принятия решений. Технологический цикл реализует классический цикл научного метода. Его можно условно разделить на несколько этапов:

  • Формулировка проблемы
  • Сбор сырых данных
  • Data wrangling (от wrangler, работник, объезжающий лошадей) — это подготовка сырых данных для выполнения последующей аналитики над ними, преобразование сырых данных, хранящихся в любых произвольных форматах, в требуемые для аналитических приложений.
  • Предварительный анализ данных, выявление общих тенденций и свойств.
  • Выбор инструментов для глубокого анализа данных (R, Python, SQL, математические пакеты, библиотеки).
  • Создание модели данных и проверка ее на соответствие реальным данным.
  • В зависимости от задачи выполнение статистического анализа, использование машинного обучения или рекурсивного анализа.
  • Сравнение результатов, полученных разными методами.
  • Визуализация результатов.
  • Интерпретация данных и оформление полученной информации для передачи лицам, принимающим решения.

Этот процесс может выглядеть примерно так, как показан на рисунке «Технологический цикл Data Science».

Технологический цикл Data Science

На практике редко процесс извлечения знаний из данных бывает линейным. После выполнения того или иного шага может возникнуть необходимость возврата к предыдущему с целью уточнения используемых методов, вплоть до постановки задачи. Случается, что после получения удовлетворительных результатов, возникают уточняющие вопросы и цикл приходится проходить заново.

И в науке, и в бизнесе методами Data Science из данных извлекаются знания, поэтому вполне справедливо перефразировать известный афоризм Максима Горького «Любите данные – источник знаний».

Управление качеством данных

Определение качества данных формулируется как обобщенное понятие полезности данных, формализуемое в определенном наборе критериев. Для корпоративных данных информационных систем управления принято выделять следующие шесть критериев: востребованность, точность, согласованность, своевременность, доступность и интерпретируемость. Для каждого критерия определяется набор ключевых показателей эффективности (КПЭ) и прорабатываются практики, улучшающие их (подробнее).

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? Ответы на эти вопросы содержатся в отдельном материале TAdviser.

Читайте также