2020/05/29 09:59:19

Наука о данных
Data Science

Наука о данных (Data Science) — профессиональная деятельность, связанная с эффективным и максимально достоверным поиском закономерностей в данных, извлечение знаний из данных в обобщённой форме, а также их оформление в виде, пригодном для обработки заинтересованными сторонами (людьми, программными системами, управляющими устройствами) в целях принятия обоснованных решений.

Содержание

Что такое Data Science?

Математические и алгоритмические методы, оптимизированные для эффективного выявления сложных закономерностей. Наука о методах анализа данных, сформировавшаяся на стыке математики, компьютерных наук и бизнеса, включающая в себя построение сложных аналитических моделей на основе данных для извлечения новых знаний.

Data Science — это набор конкретных дисциплин из разных направлений, отвечающих за анализ данных и поиск оптимальных решений на их основе. Раньше этим занималась только математическая статистика, затем начали использовать машинное обучение и искусственный интеллект, которые в качестве методов анализа данных к матстатистике добавили оптимизацию и computer science (то есть информатику, но в более широком смысле, чем это принято понимать в России)[1].

Структура Data Science Проекта

Data Science - как это работает?

[2]

Традиционные риски Data Science проектов

  • Высокая стоимость реализации проекта приведет к финансовым потерям (не окупится)
  • Отсутствие подробной отчетности по проекту не позволит отчитаться о потраченных средствах или принять правильное решение о продолжении проекта
  • Внедрение закрытого алгоритма или программы («Черный ящик») сделает невозможным дальнейшее изменение или модернизацию проекта внешними или внутренними ресурсами

Big Data≠Data Science



Big Data – это:

  • ETL\ELT
  • Технологии хранения больших объемов структурированных и не структурированных данных
  • Технологии обработки таких данных
  • Управление качеством данных
  • Технологии предоставления данных потребителю

Data Science – это:

Data Science в реалиях производства

  • Сложный и длительный во времени процесс
  • Требуется глубокое понимание предметной области
  • Разная частота съема данных и не все оцифровано
  • Нет сквозного контроля и фиксации событий тех.процесса
  • Доверие к модели со стороны технологов и операторов
  • Для проверок модели требуются эксперименты с данными реального времени на производстве

Новости и основные тенденции в области данных

2020: Наука о данных: пять ключевых тенденций

1. Ускорение внедрения ИИ в бизнесе

В течение последних нескольких лет ИИ постепенно становится одной из основных технологий как для малых, так и для крупных предприятий, и есть все основания полагать, что это будет продолжаться в течение следующих нескольких лет. Сегодня мы находимся на начальных этапах применения ИИ, но вполне вероятно, что уже к концу 2020 г. мы увидим новые и более прогрессивные методы его задействования в научных областях и бизнесе. Движущей силой такого быстрого роста является тот факт, что ИИ позволяет компаниям любых размеров значительно повысить эффективность и результативность своих бизнес-процессов и операций. С его помощью можно также достичь огромных успехов в управлении клиентскими и пользовательскими данными[3].

Многие предприятия столкнутся со сложностями при внедрении ИИ, что связано с ограниченными финансовыми ресурсами или недостатком квалифицированного персонала, но те, кто инвестирует в него средства, получат ощутимую отдачу в виде продвинутых приложений, разработанных с использованием ИИ, МО и других технологий, которые значительным образом изменят те методы работы, которые приняты сегодня.

Еще одна тенденция, которая в ближайшие месяцы примет видимые очертания — автоматизированное МО, которое помогает трансформировать науку о данных при помощи улучшенного управления данными. Это приведет к тому, что начинающим специалистам по данным потребуется пройти специализированные курсы, чтобы изучить методы глубокого обучения.

2. Быстрый рост IoT

Согласно IDC, к концу 2020 года инвестиции в технологии Интернета вещей достигнут 1 трлн. долл., что является очевидным свидетельством ожидаемого роста числа «умных» и подключенных устройств. Многие люди уже применяют приложения и устройства, чтобы с их помощью управлять своими бытовыми приборами — электропечами, холодильниками, кондиционерами и телевизорами. Все это примеры базовой технологии IoT, и пользователи часто могут не знать, что за ней скрывается. Смарт-устройства типа Google Assistant, Amazon Alexa и Microsoft Cortana позволяют людям легко автоматизировать повседневные задачи в домашних условиях. Это только вопрос времени, когда компании задействуют их в комбинации с бизнес-приложениями и начнут активнее инвестировать в эту технологию. Наиболее заметный прогресс от применения IoT ожидается на производстве — там она поможет оптимизировать работу заводских цехов.

3. Эволюция аналитики больших данных

Эффективный анализ больших данных, несомненно, помогает предприятиям получить значительное конкурентное преимущество и достичь основных целей. Сегодня они применяют для анализа своих скоплений данных различные инструменты и технологии, такие как Python. Все больше компаний сосредоточились на выявлении причин, стоящих за определенными событиями, которые происходят в настоящее время, и в этом случае на помощь приходит прогнозная аналитика — она позволяет выявлять тенденции и прогнозировать, что может произойти в будущем. К примеру, она пригодится для того, чтобы определить пользовательские привычки отталкиваясь от истории просмотров или покупок. Специалисты по продажам и маркетингу могут проанализировать эти модели, чтобы создать более целенаправленные стратегии для привлечения новых клиентов и удержания уже имеющихся. Amazon применяет прогностические модели для наполнения складских запасов исходя из спроса в том или ином регионе продаж.

4. Edge Computing на подъеме

Периферийные вычисления набирают популярность, и ответственность за это несут датчики. Наступление этой технологии продолжится в значительной степени благодаря популяризации IoT, которая захватывает основные вычислительные системы. Edge Computing предоставляет компаниям возможность хранить потоковые данные рядом с источниками и анализировать их в режиме реального времени. Периферийные вычисления также являются альтернативой аналитике больших данных, которая требует высокопроизводительных устройств хранения данных и гораздо большей пропускной способности сети. Число устройств и датчиков, собирающих данные, растет экспоненциально, поэтому все больше компаний внедряют Edge Computing благодаря его возможностям в плане решения проблем, связанных с пропускной способностью, задержкой и связью. Кроме того, сочетание периферийных и облачных технологий формирует синхронизированную инфраструктуру, которая может минимизировать риски, связанные с анализом и управлением данными.

5. Растущий спрос на специалистов по безопасности данных

Без сомнений, внедрение ИИ и МО приведет к появлению многих новых специальностей в ИТ- и высокотехнологичных отраслях. Одной из самых востребованных станет специалист в области безопасности данных. На рынке труда уже в достаточном количестве имеются эксперты в области ИИ, МО и специалисты по данным, но помимо них существует потребность в специалистах по безопасности данных, которые умеют так анализировать и обрабатывать данные, чтобы передавать их клиентам в безопасном виде. Для выполнения этих функций они должны хорошо разбираться в новейших технологиях, таких как Python и другие популярные языки, которые применяются в науке о данных и аналитике. Четкое понимание концепций Python поможет решить проблемы, связанные с безопасностью данных.

Обучение Data Science

2020: НИТУ «МИСиС», SkillFactory и Mail.ru Group запускают русскоязычную онлайн-магистратуру по Data Science

28 мая 2020 года компания Mail.ru Group сообщила, что НИТУ «МИСиС» и образовательная платформа в области Data Science – SkillFactory – заключили соглашение о создании совместной онлайн-магистратуры «Наука о данных» и сотрудничестве в области развития образовательных технологий в высшем образовании. Это партнерство частной образовательной компании с государственным вузом по модели OPM (Online Program Management). Индустриальным партнером программы выступает Mail.ru Group. Программу также поддерживают Nvidia, Ростелеком и Университет НТИ «20.35».

Выпускники программы смогут работать в областях Big Data Engineering, Machine Learning Development и Artificial Intelligence Development. Цель программы – вовлечь в сферу науки о данных более 1 000 молодых специалистов к 2025 году в рамках федерального проекта «Кадры для цифровой экономики», задача которого подготовить не менее 120 000 выпускников вузов по ИТ-направлениям.

Занятия будут вести профессора НИТУ «МИСиС» и практикующие специалисты из Mail.ru Group, Яндекса, банков Тинькофф и ВТБ, компаний Lamoda, BIOCAD, АльфаСтрахование и др. Интенсивная программа онлайн-магистратуры позволит студентам овладеть знаниями и навыками, востребованными работодателями, получить фундамент для дальнейшего развития и построения карьеры, пройти стажировку в компаниях-партнерах программы.

«
«Междисциплинарная магистерская программа Data Science создана НИТУ «МИСиС» совместно SkillFactory и компаниями - Mail.ru Group, Ростелеком и NVidia. Её выпускники будут владеть знаниями и компетенциями в области больших данных, искусственного интеллекта и машинного обучения. Эти навыки актуальны на рынке труда и востребованы работодателями»,
»

Ещё одна особенность программы – работа с менторами. Кроме преподавателей со студентами будет работать команда менторов – специалистов в области Data Science. Они будут помогать студентам с возникающими во время обучения сложностями, давать содержательную обратную связь по выполненным работам, делиться опытом и знаниями по профессии. Поддержка менторов будет доступна студентам в чате в режиме реального времени.

Технологическим партнером программы стала компания SkillFactory, обеспечивающая сопровождение образовательного процесса. Для каждого студента будет сформирован индивидуальный план обучения, что позволит управлять его образовательным опытом и мотивацией, что, в свою очередь, повышает результативность обучения. Студенты будут учиться на интерактивных тренажерах и решать практические задачи на реальных данных. Среди дисциплин в рамках программы: язык программирования Python, Machine Learning, Deep Learning, Big Data, Computer Vision.

«
«Мы верим в модель OPM (Online Program Manager) - взаимодействие вузов и образовательных компаний в создании и реализации образовательных программ. Эта модель уже больше 10 лет работает в США и Европе, и мы уверены, что в ближайшие годы она хорошо покажет себя и в российских вузах»,
»

«
«Подготовка специалистов по Data Science — одно из основных направлений в рамках образовательной деятельности Mail.ru Group. Мы реализуем разные форматы, среди них в том числе развитие компетенций профессионалов, которые уже работают в этой сфере. В этом направлении тесно сотрудничаем с НИТУ «МИСиС» — в 2019 году открыли Академию больших данных MADE, где уже по данным на май 2020 года учатся 200 студентов со всей страны — и готовы поделиться опытом в рамках поддержки онлайн-магистратуры вуза. У онлайн-формата много преимуществ, но главное — доступность. Получить степень магистра московского вуза смогут жители любых регионов»,
»

Поступить в магистратуру смогут выпускники бакалавриата любого направления подготовки по результатам онлайн-экзамена.

Специалист по изучению данных (data scientist)

Основная статья - здесь

Почему Data Scientist сексуальнее, чем BI-аналитик

В связи с ростом популярности data science (DS) возникает два совершенно очевидных вопроса. Первый – в чем состоит качественное отличие этого недавно сформировавшегося научного направления от существующего несколько десятков лет и активно используемого в индустрии направления business intelligence (BI)? Второй - возможно более важный с практической точки зрения - чем различаются функции специалистов двух родственных специальностей data scientist и BI analyst? В материале, подготовленном специально для TAdviser, на эти вопросы отвечает журналист Леонид Черняк.

Робототехника



Управление данными

Примечания