Конференция
Big Data и BI Day 2022
31 мая, 2022
По всем вопросам обращайтесь по адресу: conf@tadviser.ru

О конференции

31 мая 2022 года в Москве состоялся ежегодный саммит от портала выбора технологий и поставщиков TAdviser. В мероприятии приняло участие более 900 делегатов, было сделано около 100 докладов. После пленарной части начали свою работу сессии по разным отраслям бизнеса.

Секция Big Data и BI Day была посвящена обзору трендов, в которые лучше вкладываться именно сейчас. Однако чаще обсуждали то, на какие инструменты стоит переходить, если западный вендор ушел и просто отключил свою систему — и такое бывало. Впрочем, унывать не стоит. Тех же BI-решений появилось так много, что компаниям-заказчикам приходится устраивать целые исследования в попытке выбрать что-то одно.

Кто обладает информацией — владеет оружием. Так начал свое выступление Сергей Иванов, директор по данным, ПАО группа «Ренессанс Страхование», который по совместительству выступил модератором этой секции. Клиентские данные нужны бизнесу для процветания, но как же тайна частной жизни? Получается, что в 21 веке приватность устарела как класс?

Сергей Иванов, директор по данным, ПАО «Ренессанс Страхование»

Государство выпустило уже немало законов о персональных данных. Модель, заданная ими, диктует следующее: у клиента достаточно получить согласие на обработку (а также хранение и передачу) таких данных.

«
При этом Матрица уже здесь, мы в ней живем. Ведь мы и наши данные в цифровом виде повсюду: сайты, клиники, магазины и сервисы услуг от государства — все владеют данными о нас, — уверяет спикер.
»

Информацией о человеке может обернуться против него самого — ее используют мошенники и те, кто хочет манипулировать нашим мнением. С другой стороны, несмотря на опасность, люди готовы сделать свою персональную информацию публичной ради преференций и в том случае, если будут уверены, что данные не превратятся в обоюдоострый меч.

«
Мне же нравится, когда на основе данных обо мне финансовая организация предлагает мне кредит с пониженной процентной ставкой. В этом случае я готов сделать свою персональную информацию публичной, главное, чтобы ее не превращали в оружие, — говорит Сергей Иванов.
»

Персонализация цен, точное предложение, лояльность, снижение стоимости удержания, понимание клиента — все это даёт бизнесу обладание информацией о клиентах. По ним он может судить о потенциале будущего общения. Такие компании, как, например, «Яндекс», используют не только персональное общение, но делают и профили пользователей, взаимодействуя с ними не лично, а выбирая нужные когорты с помощью фильтров, например, при предоставлении рекламы. Но тут возникает еще одна тема, связанная с информационной безопасностью. На этот раз речь о подлинности персональных данных. Являются ли подписчики людьми или это боты? И если информация от госорганов верифицирована, то остальная информация из интернета — нет. Это стоит учитывать.

Персональные данные — это вообще очень чувствительная вещь. Существуют ли способы обезличивания таких данных, после которого восстановление будет невозможно?

«
Чисто математически — нет, — считает Алексей Нейман, исполнительный директор, «Ассоциация Больших данных».
»

Он привел эту и еще несколько проблем, которые постоянно решает бизнес, когда использует данные для создания каких-то новых продуктов. Вторая проблема связана с ценностью. Как снизить риск утери части информации, которая придавала данным ценность?

Алексей Нейман, исполнительный директор, «Ассоциация Больших данных»

Еще один порог, который встретится на пути — регулирование. Тут сложилась интересная ситуация. С одной стороны, у нас есть 152 Федеральный закон, который защищает персональные данные и требует иметь согласие от лиц, предоставивших данные, а также предъявляет жесткие требования к процессу обработки, к технической инфраструктуре, которая при этом задействована, ограничивает цели, с которыми обработка производится. В общем, требований много и за их нарушение предусмотрена ответственность. С другой стороны, есть 149 Федеральный закон, который регулирует обработку общей информации. Анонимную информацию можно использовать и обрабатывать и публиковать свободно, за исключением некоторых категорий. Ответственность за нарушения в обработке данных тут отсутствует.

«
Теоретически мы можем из любых персданных сделать некую статистику. Каждый обработчик таких данных куда-то сдает свою нормативную отчетность. Они это сдают, законодательно все это является как раз общей информацией. Можно ли оттуда вытащить персональные данные? Считается, что нет. А на самом деле мы все прекрасно знаем случаи, когда кто-то публиковал статистику, и оттуда можно было получить персональную информацию. Обычно такие кейсы сопровождались страшными скандалами, — вспоминает докладчик.
»

По его мнению, назрела необходимость сформировать новый практики обработки персданных с тем же приемлемым для государства уровнем риска, что и две существующие, описанные выше крайности, но по другим факторам сделать так, чтобы новая практика заняла место посередине. Такие данные обезличены, при этом нужно, чтобы цели обработки в пределах установленных рисков определялись свободно, а обработчик управлял бы рисками, связанными с обработкой обезличенных данных.

Рыночные игроки готовы работать с этими рисками, экономический потенциал присутствует, а вот чего нет, так это законодательной возможности для использования риск-ориентированного подхода. Алексей Нейман представил эту концепцию обезличенных данных и привел схемы и формулы, объяснил, какой подход к оценке рисков использует компания, из чего складывается коэффициент обезличивания, как строится модель оценки рисков и как тестируются все необходимые методики.

«
Сейчас мы проводим эксперимент на реальных кейсах, которые с точки зрения законов пока находятся в серой зоне. По ним хотим рассчитать риски и как они меняются, сравнить их с потенциальной выгодой в деньгах и, возможно, выступить с законодательной инициативой о вводе обезличенных данных в обращение. Если у вас есть такая же проблема, когда вы видите, что работаете с данными, близкими к персональным, и корпоративный комплайенс предлагает не делать нужные продукты, потому что запускать их нельзя, опасно с точки зрения регулирования — приходите к нам. Мы добавим ваш кейс в нашу программу тестирования, посмотрим на риски и на базе этого дополнительно доработаем методику.
»

О том, какие технологии и алгоритмы являются наиболее значимыми именно сейчас, во что нужно вкладываться как можно быстрее и масштабнее всем участникам рынка, предложил поговорить Сергей Голицын, вице-президент, заместитель руководителя департамента анализа данных и моделирования, ВТБ. По его мнению, один из основных современных трендов в Data Science — это Data Fusion, технология объединения данных.

Однако такое объединение — задача довольно сложная.

«
Это, в первую очередь, непросто потому, что есть нюансы законодательства, и объединить данные легально — это нетривиальная вещь, поэтому тут применяется большое количество алгоритмов и платформ, чтобы объединять кросс-индустриальные данные, — утверждает докладчик. — Нужно серьезно вложиться в алгоритмы обезличивания, научиться правильно сопоставлять данные, обладать приличными компетенциями в части deep learning. Также лучше заранее понять, сходится вообще наша экономика или нет, потому что все эти технологии весьма затратны, а ведь нужно еще помнить о масштабируемости.
»

Сергей Голицын, вице-президент, заместитель руководителя департамента анализа данных и моделирования, ВТБ

Системно подойти к задаче Data Fusion можно, для этого следует использовать криптоанклавы. Именно их совместно с МФТИ сейчас и разрабатывает ВТБ. Используя криптоанклавы, партнеры передают данные в криптозащищенную область и при этом получают следующие гарантии:

  • доступ к их данным отсутствует у других участников анклава;
  • для анализа их данных применяются строго регламентированные алгоритмы;
  • на выходе есть возможность получить только результаты применения модели на данных участников, но не сами данные.

Задача Data Science создавать не отдельные модели, а целые фабрики по разработке моделей под типовые задачи. Для этого была разработана AutoML-платформа, которая автоматизирует полный жизненный цикл модели, включая внедрение модели как сервиса.

Еще один проект с МФТИ касается создания промышленного оптимизатора (солвера). Сейчас основными коммерческими продуктами в этой сфере являются Gurobi, CPLEX IBM и FICO Xpress. С ними уже начались известные проблемы, а оптимизаторы с открытым исходным кодом не могут обеспечить стабильное время работы и точность решения. Есть у них и сложности с параллельными и распределенными вычислениями. Именно поэтому пришлось заняться собственной разработкой.

«
Вообще, все эти игрушки довольно дорогие, но эффект от них впечатляющий. Наш построенный солвер обыграл 80% опенсорсных продуктов — это при ограниченном времени. Если время не ограничивали, то все задачи решались более оптимально именно на своем продукте в сравнении аналогичным open source, — констатировал докладчик.
»

Упомянул он и ряд платформ, которые используются в банке, например, гео-платформу для оценки недвижимости и интерпретации сложных геомоделей, графовую платформу, NLP-платформу.

Содержание

Меняемся вместе с миром

Фундаментальные, но неочевидные факторы, влияющие на стратегию создания эффективно работающего аналитического подразделения рассматривал в своем докладе Евгений Лимаренко, директор по ИТ, Gulliver Group. Существует два подхода к тому, как обычно делают такое подразделение. Первый подход спикер назвал «жирным, богатым», потому что нанимаются звезды и большие команды, им создаются особые условия, вкладываются большие деньги. Второй подход противоположный — «режим Джеки Чана». Один или двое самоучек буквально на коленке строят архитектуру, договариваются с бизнесом, и вся аналитика происходит, по сути, в ноутбуке у такого специалиста.

Евгений Лимаренко, директор по ИТ, Gulliver Group
«
Ключевая идея, которую я хочу донести — создание аналитического подразделения напрямую зависит от того, насколько вы готовы меняться. Изменять процессы, системы. При этом я говорю про истинную готовность. Номинально спроси любого — и все готовы, говорят о цифровизации и трансформации, но на деле готовы далеко не все. Причем часто пользователи вообще довольно смутно представляют себе, какого же аналитического результата они ждут, — подчеркнул докладчик.
»

Начинают строить аналитический отдел, а на деле вовлеченность пользователей низкая, результаты в работе не используются, подходы и процессы никто не меняет, финансирования нет, зато процветают внутрикорпоративные интриги. Евгений Лимаренко посоветовал точно определить для себя, насколько вы будете заинтересованы в результате и есть ли бюджеты. Исходя из этого будет понятно: искать ли Джеки Чана, стоит ли нанимать звезд (которым, например, захочется работать на самых новых и дорогих технологиях).

Развитие цифровых технологий во многом меняет финансовую отрасль. Такие технологии, как облачные вычисления, Big Data и робототехника оказывают существенное влияние на банковскую отрасль и финансовый сектор. Машинное обучение и ИИ все больше внедряются в процессы управления финансами, а цифровые технологии лежат в основе всех взаимодействий с клиентами. Именно про это говорил в своем докладе Ярослав Кабаков, директор по стратегии, «Финам».

Ярослав Кабаков, директор по стратегии, «Финам»

По его словам, будущее финансового и банковского секторов очень быстро обретает форму: от приложений для просмотра котировок и мобильного банкинга до полноценной торговой системы и виртуальных помощников. Цифровизация изменила то, как компании финансового сектора общаются со своими клиентами через большее количество каналов связи. Этот сдвиг потребовал серьезного изменения коммуникативных стратегий, поскольку традиционных средств коммуникации уже недостаточно. Растущие ожидания клиентов представляют новую проблему для финансовой отрасли, в которой компании должны обеспечить многоканальную цифровую связь и унифицированный клиентский опыт.

Чтобы отвечать вызовам времени в «ФИНАМ» не только используют ИИ, но и создали «индекс счастья», который показывает большее довольство клиентов, для коммуникации с которыми использовались технологии искусственного интеллекта. Это происходит потому, что ИИ помогает подбирать не только финансовые продукты, но и рекомендует правильное время и канал коммуникации для предложения.

Свой BI

Лидеры рынка BI уходят из России. Tableau объявил о прекращении продаж новых лицензий на российском рынке и продлении старых. Microsoft свернул продажи всех продуктов и услуг, SAP и Oracle не работают. Qlik остановил продажи и поддержку даже по текущим лицензиям. С этого печального мартиролога начал свое выступление Григорий Борисенко, директор технологической практики, «Технологии доверия».

«
Но российские BI появляются, как чертики из табакерки, — тут же замечает он, демонстрируя слайд с множеством брендов, причем список далеко не полный. — Вялотекущая программа импортозамещения в определенных крупных компаниях с февраля трансформировалась в процесс быстрого создания систем визуализации для себя. Зачем кому-то платить, если можно что-то такое сделать. Поэтому количество решений, которые впоследствии можно упаковать в коробку и предложить как независимый BI-инструмент, будет только увеличиваться в ближайшие годы.
»

Григорий Борисенко, директор технологической практики, «Технологии доверия»

Теперь нужно понять, что из этого широкого списка на самом деле пригодно к использованию и можно смело внедрять? В компании «Технологии доверия» провели целое исследование, чтобы ответить для себя на этот вопрос. На первом этапе постарались проанализировать зарубежные и российские исследования и сравнения BI, посмотрели их ключевые критерии отбора и сопоставления. Оказалось, что большинство методик им не подходят. Поэтому тут занялись верификацией и расширением перечня критериев (набора наиболее существенных характеристик) с командой на основе опыта выполнения клиентских работ. Отобрали больше 30 таких критериев.

Далее, рассматривая состав рынка российского BI, собирая информацию из открытых источников (документацию, вебинары и обзоры, презентационные материалы и доклады на конференциях), провели первичный отбор по выбранным критериям. После отсева на рассмотрении осталось 15 инструментов. После выявления лидеров рынка и перспективных продуктов, детального анализа их возможностей и общения с командой разработки осталось 8 продуктов, а после тестирования и демо-версий отвалилось еще три.

«
Вы, наверное, сейчас хотите увидеть слайд со всякими списками и названиями, но мы, как настоящие консультанты, в публичном доступе показывать такого не будем. На самом деле, мы ничего не хотим скрыть от вас. Просто мы четко поняли — выбирать систему следует под конкретные сценарии использования. Поэтому какой BI лучший — решать вам, — улыбается Григорий Борисенко.
»

Каждый работает с данными как может

«
Я сразу хочу сделать предварительное объявление, — начал свое выступление Александр Логачев, директор по цифровым технологиям, «Альфастрахование». — Мы не ведем научной деятельности, не хотим строить озера данных или какие-то большие аналитические системы. Мы просто используем анализ данных и машинное обучение для зарабатывания денег. И все. Хотим денег Вот такие мы жадные, да. Для машинного обучения нужны данные, и от них мы не требуем многого. Нужны всего четыре вещи: чтобы данные поставлялись регулярно, быстро, чтобы они были качественными и описанными. Еще нужен мониторинг данных — чтобы за всем этим можно было следить.
»

Собирать все данные подряд не надо, можно идти по пути решения бизнес-задач и сбора только необходимой информации.

Александр Логачев, директор по цифровым технологиям, «Альфастрахование»

Чтобы добиться от данных нужного, в «Альфастраховании» понадобилось для начала преобразовать команды, потому что раньше зоны ответственности были разрознены и хаотичны. Команды решали пересекающиеся задачи, при этом часть экспертиз там отсутствовала, все только мешали друг другу.

«
Мы с одной стороны объединили команды, а с другой распределили их по бизнес-доменам, — объясняет спикер.
»

Командам нужна самостоятельность, но риски высоки, а бизнес нетерпелив. В компании попытались застраховаться от этого с помощью предварительной аналитики, ретро-тестов, ревью кода, запуска моделей в режиме а/б тестирования и запуска в продакшн в режиме логирования. Защита от рисков удлиняет и усложняет получение эффекта, но страхует от ошибок.

Помимо команды нужны инструменты. Докладчик показал список того, что используется в его компании и отметил: Big Data Open Source — это сложно, потому что нужно держать экспертизу. Но если она есть, то оказывается, что open source многое покрывает. В целом, чтобы работать с данными успешно, нужно держать в фокусе внимания сами данные, команды, инструменты и конечную ценность для бизнеса.

Нельзя так просто взять и разработать стратегию управления данными.

«
Почему это сложно? Это проект, там большие задачи и хорошо бы прежде всего подготовиться и подумать, какие подходы к решению стоит применять. Когда начинаешь объяснять людям не из ИТ, что такое управление данными, то тебя слушают только первые три минуты, а потом давай, до свидания, — полагает Дмитрий Гераськин, ИТ бизнес-партнёр, EVRAZ Group.
»

Дмитрий Гераськин, ИТ бизнес-партнёр, EVRAZ Group

Разработкой стратегии заниматься нелегко хотя бы потому, что все очень быстро меняется, а надо разработать документ на длительный срок и чтобы он охватывал самые разные случаи. Но никто не может предвидеть, куда повернет река жизни. Классический уже пример: бюджеты заказчика и архитектура решений в начале февраля этого года одни, а в конце февраля — совершенно другие. А это все напрямую влияет на стратегию. Однако несмотря на сложности, стратегию разрабатывать надо, и докладчик представил свои подходы к ее разработке. Например, предложил использовать дизайн-мышление, стратегические сессии и игропрактику, а также коснулся вопроса, как именно обосновывать бюджет.

Как построить платформу данных с нуля, получить ценность для бизнеса меньше, чем через год и не увязнуть в техническом долге, рассказал Евгений Курилович, директор департамента по управлению данными, DPD. Реалии бизнеса компании еще несколько лет назад были таковы: текущие решения технологически и функционально устарели, создание отчетов возможно только силами ИТ-специалистов, строить отчеты и глубоко их анализировать не получается, выгрузки операционной и управленческой отчетности разрознены. Время вывода решений на рынок критически превышает все ожидания.

«
Что-то нужно было менять, потому что, например, возраст бэклога задач от бизнеса на отчеты составлял 1 год!, — делится выступающий.
»

Евгений Курилович, директор департамента по управлению данными, DPD

Была поставлена задача внедрить платформу по управлению данными. Среди целей этого внедрения значились:

  • Замена разрозненных выгрузок на управленческую аналитику по доменам.
  • Сокращение времени разработки новых отчетов.
  • Организация сервиса предоставления данных и сквозной аналитики в виде набора информационных панелей, витрин данных, песочниц.
  • Минимизация обращений к высоконагруженной (транзакционной) системе для формирования аналитической отчетности.
  • Создание self-service BI взамен текущих разрозненных решений.

Параллельно с построением платформы формировались команды, определялись их роли и состав. Основной состав был сформирован к концу I квартала 2021 года. Ключевым фактором успеха стала высокая скорость найма команды и построения внутренних процессов взаимодействия.

При проектировании архитектуры и реализации платформы рассматривались разные варианты. Обсуждалась миграция старого хранилища данных как есть — с сохранением действующего функционала. Но устаревшие алгоритмы не позволили это сделать, потому что их реализация кардинально не соответствовала изменившимся бизнес-процессам. В связи с этим было принято решение частично перенести информационные панели BI, что привело к росту используемости данных бизнесом через механизм self-service. Рост количества пользователей был десятикратный (с 30 человек до 350). Базовый детальный слой строился на основе корпоративной модели данных и загрузки всех данных ключевой системы. Платформа делалась итерационно на основе приоритетных потребностей бизнеса с одновременным выделением технологического стрима для соблюдения заданных архитектурных принципов.

Среди планов развития на этот год Евгений Курилович отметил построение озера данных, цифровую воронку продаж, моделирование тарифов, продолжение развития инициатив self-service BI и так далее.

По мнению Юрия Сироты, эксперта по искусственному интеллекту и монетизации данных, незнание теории приводит к тому, что каждая задача новая. Хотя задачи могут быть объединены общей методологией и иметь общие принципы решения. Чтобы не «катать квадратное, носить круглое», можно воспользоваться дисциплиной, позволяющей превратить информацию в лучшее практическое действие любого масштаба. Она называется Decision intelligence и предназначена для создания программных систем, которые помогут делать взвешенный выбор решения среди возможных альтернатив, рекомендовать дальнейшие действия и распространять результаты среди заинтересованных лиц.

«
Она про то, как принимать правильные решения, а это сейчас очень важно, ведь внешняя среда очень агрессивна. Бизнесу тяжело работать экстенсивно, переходим на интенсивность, — подчеркнул докладчик.
»

Юрий Сирота, эксперт по искусственному интеллекту и монетизации данных

В основе Decision intelligence лежат математические методы, разрабатываемые в рамках таких дисциплин, как теории оптимизации, ИИ (data science, статистика, эконометрика), управление данными (data governance), DB и BI. Сначала описание процессов формализуются с помощью формул. Дата сайнтисты находят закономерности и пытаются выстроить математическую зависимость, из которой будет сформирован набор альтернатив. Решая задачу оптимизации, будут выбирать альтернативу из этого набора.

Decision intelligence не предназначена для того, чтобы заменить человека. Она оказывает помощь в принятии решения и может повысить его эффективность. Опыт, интуицию и персональные знания заменить нельзя, а вот в части возможности и скорости обработки многомерных и больших данных лучше система, а не люди.

Экономим человекодни и деньги

Проблемы аналитических платформ заключаются в том, что пользователь имеет дело с множеством отчетов, интерфейсы сложны, а после обновления ПО часто приходится изучать их заново, но главное — все это дорого. Константин Ракитин, директор по развитию бизнеса, Easy Report, утверждает:

«
Часто команда аналитиков отвечает на суперпростые вопросы, и нет нужды содержать ее ради такого результата.
»

Константин Ракитин, директор по развитию бизнеса, Easy Report

Вместо дорогих инструментов и команд докладчик предложил воспользоваться инструментом, который разработала компания Easy Report. Одноименный продукт упрощает доступ к данным — отчетность теперь доступна прямо из мессенджера. Easy Report прост в использовании, всегда под рукой и дешевле остальных решений. Он улучшает бизнес-процессы, давая возможность получать отчеты прямо в чате. Запросы делаются на естественном языке.

«
Наш инструмент очень понравился клиентам из Персидского залива, где любят простые решения, которыми можно пользоваться, буквально лёжа на подушке и покуривая кальян, — рассказывает Константин Ракитин, а его коллега — Игорь Пантелеев, соучредитель, Easy Report — дополняет: При минимальных затратах — максимальная эффективность. Этот принцип, знакомый всем еще по ТРИЗ, мы использовали при разработке интерфейса. Пользователь может сказать: покажи заказы Иванова за двадцать первый год, а может просто назвать ключевые слова — Иванов, заказы, 2021, и получит всю необходимую информацию.
»

Игорь Пантелеев, соучредитель, Easy Report

Easy Report работает с данными любого типа из различных источников. Пользователь может выбирать данные, для которых строится отчет. Контроль доступа позволяет осуществлять настройку групп данных, доступных для каждого конкретного пользователя, и может ограничить отображение данных. Развертывание инструмента занимает 4 недели.

«
Сегодня мы считаем своей миссией помощь российскому ИТ-сектору в таких архиважных задачах, как импортозамещение и создание импортонезависимости. Все это можно назвать процедурой разминирования, потому что использовать сейчас зарубежное ПО, тем более такое, которое имеет доступ к вашим данным — это похоже на танцы на минном поле, — остроумно замечает Дмитрий Гольцов, заместитель генерального директора по коммерческой деятельности, «Мегапьютор» в начале своего доклада.
»

На конференции он представил систему для анализа большого объема структурированных и неструктурированных данных под названием PolyAnalyst.

Дмитрий Гольцов, заместитель генерального директора по коммерческой деятельности, «Мегапьютор»

Платформа PolyAnalyst может заместить иностранное ПО по разным направлениям. Здесь объединены сразу три системы, которые компании обычно покупают как отдельные продукты: ETL, BI, Data и Text Mining.

«
В области работы с текстами на русском языке мы даже превосходим западные аналоги, — восклицает докладчик.
»

Еще одно серьезное преимущество по нынешним временам заключается в том, что PolyAnalyst включен в Единый реестр российских программ для электронных вычислительных машин и баз данных. Все системные компоненты и функциональные модули — собственной разработки.

В конце этого года в мире будет создано 100 трлн гигабайт данных, причем от 70 до 90% из них — неструктурированны. Со всем этим объемом нужно работать: анализировать и извлекать полезную информацию, а до тех пор она скрыта.

«
Когда мы говорим о больших данных, то в голову приходит старое доброе машинное обучение. У него есть ряд преимуществ. Например, высокая производительность. Обычная модель довольно легко справляется с большим объемом данных. Второе преимущество — эффективность. Модель способна учитывать множество факторов при принятии решения, — рассказывает Дмитрий Гольцов.
»

Машинное обучение эффективно, но есть недостатки, если речь зашла о текстовом анализе. Для качественной модели требуется очень большое количество размеченных документов, при этом сложно понять логику принятия решений и исправить ошибки. Поэтому в случае текстов аналитики любят использовать подход, основанный на правилах. Его преимущества — это поиск с учетом контекста, работа с таблицами и их содержимым, парсинг структуры документов и использование словарей.

Докладчик привёл конкретный кейс, когда заказчиком выступил оператор мобильной связи, обладающий набором действующих договоров аренды под базовые станции и склады телекоммуникационного оборудования. Дело в том, что появился новый стандарт (МСФО (IFRS) 16 «Аренда»), который внес существенные изменения в требования к бухгалтерскому учету аренды для арендаторов. Понадобилось быстро, за 30 дней, отнести все имеющиеся у заказчика документы либо к классифицируемым по МСФО 16, либо к неклассифицируемым. Водораздел проходил по сроку заключения договора — если он заключен раньше часа икс, то документ идет в одну стопку, если позже — то в другую. Сложность же состояла в том, что дата в бумагах могла быть записана как угодно, а самих документов было около 50 тыс. экземпляров на множестве листов. Некоторые договоры исключались из стандарта по условиям, которые возможно было извлечь только из текста. Это означало, что необходимо изучить содержание каждого договора.

Ручная разметка для машинного обучения потребовала бы слишком много времени, поэтому решили применить тот самый rule-based подход. Аналитики «Мегапьютера» написали правила для извлечения информации. Результаты в цифрах выглядят потрясающе. Анализ удалось сделать за 8 часов вместо ручной обработки, которая отняла бы 70 человекодней. Занимался всем один человек — эксперт, писавший правила. Не привлекались ни специалисты для ручного анализа, ни разметчики, ни дата-инженеры для машинного обучения.

Дмитрий Крючков, директор по open source продуктам, Sapiens Solutions, начиная выступление, сразу же показал длинный список логотипов и сообщил, что все эти клиенты перешли к ним в поиске спасения после закрывшихся западных вендоров.

«
Некоторые ведь ушли так: просто отключили систему и все. Заказчики начали смотреть что-то другое, и один из вариантов «другого» — продукты с открытым исходным кодом, — говорит он.
»

У таких решений нет поставщика и лицензий, при этом на рынке широкий выбор специалистов и компаний, которые с ними работают.

Дмитрий Крючков, директор по open source продуктам, Sapiens Solutions

Докладчик продемонстрировал те продукты, с которыми работает их платформа. Это и хранилища данных (Greenplum, ClickHouse, Yandex Object Storage), и инструменты для потоковой обработки, преобразования и миграции данных (NiFi, AirFlow, Kafka & Spark), и аналитическая отчетность (Apache Superset, Yandex DataLens). Потом он рассмотрел конкретные архитектуры хранилищ, которые были реализованы у некоторых клиентов Sapiens Solutions — компаний из сферы ритейла, финансовых операций и издательской деятельности.

В перерыве и по завершении конференции участники общались в неформальной обстановке, а также имели возможность ознакомиться с решениями и услугами ИТ-поставщиков на стендах, развернутых в холле мероприятия.


Спикеры и Участники конференции

<
Сергей Голицын
 Вице-президент, заместитель руководителя департамента анализа данных и моделирования, ВТБ
<
Евгений Лимаренко
CIO, Gulliver Group
<
Алексей Нейман
Исполнительный директор, Ассоциация Больших Данных
<
Григорий Борисенко
Директор технологической практики, Технологии Доверия
<
Александр Логачев
CDO, Альфастрахование
<
Евгений Курилович
Директор департамента по управлению данными, DPD
<
Сергей Иванов
Директор по данным, Ренессанс Страхование
<
Ярослав Кабаков
Директор по стратегии, Финам
<
Дмитрий Гераськин
IT Бизнес-партнер, EVRAZ Group
Юрий Сирота
Эксперт по искусственному интеллекту и монетизации данных
Игорь Пантелеев
Соучредитель, Архитектор решения, Easy Report
Дмитрий Гольцов
Заместитель генерального директора по коммерческой деятельности, Мегапьютер
Константин Ракитин
Директор по развитию бизнеса,Easy Report
Дмитрий Крючков
Директор по Open source продуктам, Sapiens solutions

Контакты

По вопросам регистрации, выступления с докладами или спонсорского участия, обращайтесь по адресу: conf@tadviser.ru

Программа конференции

ВремяТема докладаДокладчик
15.30Сергей Иванов

Директор по данным, Ренессанс Страхование. Модератор секции

15.45Игорь Пантелеев

Соучредитель, Easy Report

Константин Ракитин

Директор по развитию бизнеса, Easy Report

16.00Дмитрий Гольцов

Заместитель генерального директора по коммерческой деятельности, Мегапьютер

16:15
Объединение данных. Какие технологии предложить бизнесу в новых реалиях
Сергей Голицын

Вице-президент, заместитель руководителя департамента анализа данных и моделирования, ВТБ

16.30Евгений Лимаренко

CIO, Gulliver Group

16.45Ярослав Кабаков

Директор по стратегии, Финам

17.00Григорий Борисенко

Директор технологической практики, Технологии Доверия

17.15Алексей Нейман

Исполнительный директор, Ассоциация Больших Данных

17.30Дмитрий Крючков

Директор по Open source продуктам, Sapiens solutions

17.45
Данные, команды, инструменты -> Value
Александр Логачев

CDO, Альфастрахование

18.00Дмитрий Гераськин

IT Бизнес-партнер, EVRAZ Group

18.15Евгений Курилович

Директор департамента по управлению данными, DPD

18.30Юрий Сирота

Эксперт по искусственному интеллекту и монетизации данных