Проект

«Почта России» накопила 3,5 петабайта Big Data и научилась превращать их в деньги

Заказчики: Почта России

Москва; Логистика и дистрибуция

Продукт: Apache Hadoop
Второй продукт: Apache Kafka
Третий продукт: ClickHouse

Дата проекта: 2014/01
Технология: СУБД
подрядчики - 181
проекты - 478
системы - 248
вендоры - 111
СМ. ТАКЖЕ (1)

В 2016 году «Почта России» начала широко применять технологии Big Data. Об этом в конце апреля 2017 года TAdviser рассказал заместитель гендиректора по ИТ и развитию новых продуктов «Почты России» Сергей Емельченков. Предприятие собирает в единое хранилище и анализирует данные с более чем 40 тысяч отделений связи, включая информацию о клиентах и транзакциях, а также данные с логистических объектов и другие.

Одна из областей использования Big Data, по словам Емельченкова, – оптимизация маршрутов почтовых отправлений по всей стране. В «Почте России» ранее были внедрены несколько больших систем управления магистралью – пересылкой отправлений по основным маршрутам передвижения. С них практически в режиме онлайн происходит сбор информации, где находится каждая конкретная посылка или письмо. Анализируя эти данные, а также уровень загрузки дорог, объема перевозимого трафика и ряд других факторов маршруты отправлений корректируются так, чтобы получить наиболее оптимальное соотношение скорости и стоимости доставки.

Анализ больших данных используется для корректировки маршрутов почтовых отправлений (источник фото - hino.ru)

Решения Big Data используются в «Почте России» и для борьбы с «серой» (неучтенной, неоплаченной) почтой, которая несет для предприятия существенные финансовые потери, рассказал TAdviser Сергей Емельченков. Один из наиболее популярных видов «серой» почты - ее тайный вброс: когда по факту в крупной партии корреспонденции какая-то организация пересылает большее писем, чем официально заявленные ею на почте объем и вес отправления. Таким образом, часть писем остается неоплаченной. По данным «Почты России», к такому способу часто прибегают компании-посредники при пересылке, консолидаторы больших объемов корреспонденции.

Анализируя данные о финансовых транзакциях, логистических движениях и ряд других факторов, удается находить возможные источники возникновения «серой» почты, говорит Емельченков. Принцип работы здесь схож с антифрод-системами в банках, добавил он.

Ранее, в начале апреля, «Почта России» сообщала, что по итогам 2016 года сократила оборот неучтенной корреспонденции более чем в два раза[1]. Количество неучтенных писем, в частности, сократилось на 55% до 154 млн штук, что составляет 18% от общего годового объема письменной корреспонденции. В начале 2017 года «Почта России» инициировала первые уголовные дела против «серых» почтальонов.

Еще одно направление использования Big Data в «Почте России» – прямая адресная рассылка (Direct Mail) клиентам-физлицам, запущенная в 2016 году. Зная уже достаточно много о клиенте и его предпочтениях – что и как он потребляет, можно точечно рассылать им рекламу, пояснил TAdviser Сергей Емельченков.

Direct Mail как свой новый продукт «Почта России» предлагает использовать различным компаниям как рекламный канал. На форумах в интернете можно найти посты с публикацией текста письма «Почты России», разосланного представителям компаний, с предложением воспользоваться Direct Mail[2].

В цитируемом письме указывается, что масштабы «Почты России», которую ежедневно посещают несколько миллионов клиентов, позволили ей накопить информацию «по всем домохозяйствам России (более 60 млн. домохозяйств)»: адреса, пол, семьи с детьми и без, интересы людей, такие как мода, рыбалка, красота и здоровье, наличие авто и многое другое.

«
«Почта» знает, кто покупает товары через интернет и что покупают, так как через «Почту» проходит 40% всех доставок интернет-магазинов в России. Все это позволяет использовать в полной мере популярную сейчас стратегию привлечения клиентов data driven marketing. Обладая детальными данными о наших клиентах «Почта России» отправляет потребителям только нужную информацию, - говорилось в письме.
»

«Почта России» многое знает о своих клиентах (источник фото - aif.ru)

В 2017 году, по словам Емельченкова, «Почта России» запускает подобный сервис еще и специально для среднего и малого бизнеса. В нем помимо Big Data используется также гео-таргетинг, за счет которого точечную рекламу можно рассылать еще и в привязке к каждому конкретному району. Апробация этого сервиса показала довольно неплохие результаты, говорит Емельченков: уровень конверсии из рекламы в покупку достигает 20%.

В 2015 году в «Почте России» заявляли, что рассчитывают получить долю в 70% российского рынка адресных рассылок к 2018 году и заработать на новом направлении бизнеса порядка 9 млрд рублей[3].

Помимо указанных примеров, собираемую информацию о клиентах «Почта России» использует также для создания новых продуктов и цифровых сервисов.

Заниматься развитием технологий Big Data «Почта России» начала около трех лет назад, но широко применять эти решения стала в 2016 году, говорит Сергей Емельченков. По состоянию на весну 2017 года объем собранных данных составляет порядка 3,5 петабайт.

«
Еще три года назад каждая транзакция, которую мы проводили, оставалась на локальном компьютере в отделении связи, централизованно мы не хранили никакой информации. Сейчас любая транзакция, любое взаимодействие с клиентом хранится централизованно. В год мы собираем порядка 1 петабайта данных, сейчас объем базы – 3,5 петабайта, и мы применяем технологии больших данных – извлечения знаний из этих больших объемов, - заявил Емельченков TAdviser.
»

Он отметил, для этого «Почта России» использует современные решения и технологический стек, сравнимый с таковым у компании Google и других зарубежных игроков в этой области.

Сергей Емельченков рассказал TAdviser, что в решениях Big Data – и на уровне хранилища, и извлечения и анализа данных - «Почта России» в основном использует open source технологии. Так, хранилище данных «Почты России» построено на платформе Hadoop.

В числе используемых решений с открытым кодом также, например, - Apache Kafka — распределенная платформа потоковой обработки и передачи данных. Она используется в корпоративной шине данных для сбора и загрузки в хранилище информации из всех источников «Почты России», включая отделения связи, активности на интернет-сайте организации, электронные данные, которыми «Почта России» обменивается с контрагентами, и многие другие.

Другой пример используемого открытого решения - аналитическая СУБД ClickHouse, разработанная «Яндексом», которая позволяет осуществлять быстрый поиск в больших объемах данных.

Использование open source решений в проектах Big Data связано с общегосударственной политикой импортозамещения. По словам Емельченкова, в организации существует целая программа импортозамещения ИТ. Она предполагает также, например, замену продуктов Microsoft и Oracle.

Один из планируемых крупных проектов импортозамещения в «Почте России» – замена Microsoft Office на российский офисный пакет «МойОфис» по всей стране (подробнее об этом проекте – в отдельной статье).

Примечания