2016/08/29 10:45:08

Palantir по-русски: ИТ-система за миллиард рублей выявит опасные активности в Facebook, Viber и Telegram

В Федеральном агентстве по делам национальностей (ФАДН) с 2015 года работает система интернет-мониторинга, способная предугадывать возникновение межнациональных конфликтов, анализируя публикации в соцсетях и СМИ. О планах развития возможностей системы, предполагающих наблюдение за популярными мессенджерами и создание ИТ-инфраструктуры для ускорения реакции на конфликты, в интервью TAdviser рассказал заместитель начальника управления мониторинга ФАДН Роман Сафронов.

Роман
Сафронов
Palantir - это инструмент индивидуальной научно-исследовательской деятельности. В госорганах это не работает.

Расскажите об основных задачах системы мониторинга, создаваемой в ФАДН.

Роман Сафронов: Одной из основных задач ФАДН является проведение мониторинга в интернете конфликтных межнациональных ситуаций. Непосредственно к задачам системы также относится оценка социально-экономической напряженности в регионах. Помимо этого, в ней содержится база знаний по организациям и лицам, которые имеют отношение к государственной национальной политике.

В связи с чем возникла необходимость создания такой системы?

Роман Сафронов: Система создается в соответствии с указом Президента от мая 2012 года и последующими поручениями. Она должна осуществлять мониторинг ситуации вплоть до муниципального уровня и сигнализировать о рисках возникновения конфликтных ситуаций с тем, чтобы соответствующие органы могли оперативно отреагировать и по возможности предотвратить обострения.

Как организована работа системы?

Роман Сафронов: Информационный поток у нас идет сверху вниз. Мы ничего не собираем с регионов, а, напротив, даем им информацию, получаемую централизовано от ФОИВов, экспертов и научных организаций. То есть, происходит один мониторинг, а не 85 в каждом регионе. Мы оповещаем их о наличии проблем, и они должны реагировать.

Система имеет два уровня: государственный (взаимодействие ФАДН-регион) и муниципальный (взаимодействие РОИВ-муниципалитеты).

Для использования системы под задачи субъекта, регион может взять нашу платформу, настроив ее под свою специфику, под конкретное распределение ролей в правительстве.

То есть вы им даете, грубо говоря, рабочие места доступа к вашей системе?

Роман Сафронов: Да. Для государственного мониторинга нужно получить только логин и пароль от рабочего места, а для муниципального они их дальше настраивают. Платформа позволяет им создавать необходимые отчеты, готовить справки и т.д.

А каким образом осуществляется сбор информации в системе?

Роман Сафронов: Из открытых данных ведомств мы получаем информацию, характеризующую социально-экономическое развитие тех или иных территорий. Стараемся получать ее в разрезе муниципальных районов. На основании этого мы, условно говоря, вычисляем индекс конфликтогенности - риск возникновения конфликтной ситуации в конкретном районе. Это не рейтинг сравнения, где лучше, а где хуже. Мы говорим, что вот здесь есть риск с вероятностью такой-то. Система вычисляет вероятность конфликтов. При этом не факт, что завтра произойдет конфликт. Почему? Потому что нужно, чтобы появилась «спичка». Спичкой может стать любое сообщение в публичной сфере. Поэтому сначала мы определяем напряженность и факторы напряженности, а затем отслеживаем сообщения в СМИ и других источниках.

У каждой темы или направления есть определенный порог, после которого может начаться конфликт. Система отслеживает появление новости, прогнозирует прирост активности вокруг нее.

Активность измеряется в количестве перепечаток?

Роман Сафронов: Перепечаток, публикаций в блогах, лайков и т.п. Плюс мы договорились о взаимодействии со «Спутником», они будут давать нам статистику по IP-адресам, с которых были просмотры резонансных сообщений. Персонально нам не важно, кто смотрел. Нам важно, откуда посмотрели. Например, если бы новости о конфликте в Бирюлево читали на Урале, понятно, что никакого резонанса бы не было.

Далее на электронную почту или через смс приходит сообщение о том, что выявлена негативная тенденция. Нужно разбираться, в чем причина. Ведь СМИ могут исказить или разобраться не до конца. Мы даем сигнал в регион или муниципалитет. Если регион решил проблему и активность пошла на спад, мы снимаем ее с «алларма». Если активность продолжает нарастать, то система скажет: "Может вы и считаете, что все решили, но в интернете вся эта тема обсуждается все также активно".

У вас есть специалисты, которые мониторят, следят за «алармами»?

Роман Сафронов: Зачем? Мне приходит сообщение в почту и SMS. В регионы идут аналогичные сигналы.

А если в регионе не реагируют?

Роман Сафронов: Эскалируется вплоть до нас.

У вас кому эскалация приходит?

Роман Сафронов: Мне, другим сотрудникам, вплоть до руководителя агентства.

Хочется понять, как технологически происходит мониторинг. На основе чего вы отслеживаете частоту публикации, лайки, комментарии? Откуда берется информация?

Роман Сафронов: Есть роботы, которые мониторят соцсети, блогосферу, сайты.

Эти роботы разрабатывались специально в рамках создания системы?

Роман Сафронов: Да. Наша система сильно отличается от имеющихся на рынке. Ее задача - максимально жить своей жизнью. Мы не можем держать операторов, даже в минимальных количествах, и регионы тоже. Взять, например, туже Медиалогию, там без аналитика ничего не сделаешь. У нас новую тему может завести любой пользователь, у которого есть соответствующие права, в течении 30 секунд.

Что такое «новая тема»?

Роман Сафронов: Ну, например, произошел теракт. Это новая тема. С помощью системы ее можно мониторить, т.е. следить за развитием события.

Т.е. тему нужно заводить вручную? Сама система не может?

Роман Сафронов: Есть два варианта: Система предлагает тему наблюдения на основе мониторинга или пользователь может создать вручную по интересующей его тематике.

Система может сообщить о важности темы. После этого регион или мы можем поставить эту тему в оперативное наблюдение.

Важность темы определяется системой по ключевым словам?

Роман Сафронов: По лингвистическим особенностям. Там не только ключевые слова, там совокупность факторов, на основе которых построена математическая модель. Критический резонанс для каждой может быть своим. Есть темы, по которым нормой будет одно сообщение в месяц. А есть темы, по которым 10 сообщений в секунду.

Приведите пример на счет одного сообщения в месяц.

Роман Сафронов: Последствия Осетино-Ингушского конфликта 1992 года.

Если там произошёл какой-то теракт?

Роман Сафронов: Конфликт произошел 20 лет назад, но периодически эта тема муссируется. Как правило, она возникает по памятным датам. Ну, или депортация крымских татар в Узбекистан и Казахстан.

Одно сообщение на эту тему может вызвать конфликт?

Роман Сафронов: Одно сообщение - это норма. Несколько - это уже вопрос. А взять, допустим, сайт Навального. Любое его сообщение, связанное с правительством, может генерить 10 сообщений в секунду. Его перепечатают, прокомментируют, перепостят.

И это нормально?

Роман Сафронов: Да, для него это нормальный порог. То есть, нельзя рассматривать средние значения. В зависимости от тематики все будет по-разному. Система оценивает.

Тема может из оперативной стать долгосрочной. Допустим, была ситуация с представителями цыганской общины в Плеханово под Тулой. Вялотекущая. Но произошел резкий всплеск. Вроде бы погасили, но сейчас мы мониторим последствия, чтобы не разгоралось. Сейчас по этой теме приходит сообщение в две-три недели.Российский рынок ERP-систем сократился, но приготовился к росту. Обзор и рейтинг TAdviser 250.1 т

Во многих случаях мы не можем показывать свой интерес ресурсам. Иначе есть риск дезинформации. И мы не можем использовать при мониторинге те ограничения, которые содержатся в robot.txt. То есть, которыми пользуются поисковые системы типа Google. Нам реально важно видеть все материалы, которые размещаются на тех или иных влиятельных сайтах.

Под идеологией построения нашей системы лежит огромная научная база. Есть такой венгеро-американский ученый румынского происхождения Барабаши, один из основателей теории бесконечных сетей, к которым относится интернет. Он выявил некие закономерности, которые очень важны для правильного построения мониторинга социальных сетей. И когда ко мне приходят продавцы, технари, которые об этой теории не слышали и при этом говорят "у нас такой классный продукт", это выглядит смешно.

Вы взяли его теорию за основу?

Роман Сафронов: Его теорию нужно учитывать при настройке модели мониторинга. Многие вещи мы делали интуитивно, в силу опыта, знаний. Потом, условно говоря, встал вопрос научной основы, и мы прочитали множество диссертаций по мониторингу межнациональных отношений. Затем встал вопрос о том, как правильно мониторить в интернете. Тогда и возник как источник Барабаши и ряд других. Один из выводов теории заключается в том, что появлению новости в интернете невозможно препятствовать. Она все равно появится. Тоже самое по материалам по экстремизму. Но не каждый материал, который размещен, станет резонансным.

Каким образом вы мониторите Facebook?

Роман Сафронов: Роботом.

Робот с аккаунтом?

Роман Сафронов: Нет, если можно было бы через аккаунт - это было бы просто. Есть специальные программки, которые используются для негласного мониторинга. Facebook это сайт, на котором размещена информация. По любому сайту можно лазить.

А как же шифрование?

Роман Сафронов: Мы боремся. У него система информационной безопасности достаточно мощная. И он нас часто отрубает. Детальнее не хотелось бы углубляться. С «ВКонтакте» вот проще, там есть API.

Что этот API даёт?

Роман Сафронов: Контент.

Как это работает? Кому предоставляется этот API?

Роман Сафронов: Есть процедура подключения.

Для госорганов или для любых сторонних?

Роман Сафронов: В принципе, для любых. Американцы в 2015 году в течение полугода проводили исследования на базе «ВКонтакте» об использовании социальных сетей для террористической и экстремистской деятельности. Почему не Facebook? Facebook очень часто удаляет эти материалы, а «ВКонтакте» нет. «ВКонтакте» – это 350 млн человек, то есть достаточно репрезентативно, да еще и на многих языках. Кроме этого, «ВКонтакте» крупнейшая сеть в России по количеству пользователей. По некоторым оценкам русскоязычный сегмент составляет 70 млн пользователей.

Есть исследования об использовании Twitter для террористов. Там, где есть API, нам проще, но там и не интересно -встань на трубу, открой кран и качай. А вот с Facebook и подобными ресурсами приходится маскироваться разными способами, чтобы они не видели, что мы их мониторим, т.к. очень высокая вероятность, что они погонят дезинформацию.

Еще один момент заключается в том, что у нас есть составляющая экспертная оценка. Нам присылают свои аналитические отчёты научные институты, специализированные ведомства, федеральные органы, еще кто-то. Они, как правило, либо ситуационные, либо отраслевые по какой-то проблематике. Мы их тоже учитываем в прогнозировании. И четвертая составляющая - мы научились кое-каким технологическим образом получать доступ к обращениям граждан, которые направляются в региональные ведомства. Их система анализирует, по сути, также, как и сообщения.

То есть, если новые сообщения на одну и ту же тему идут в какое-то ведомство, то вы это тоже учитываете?

Роман Сафронов: Да. Но хуже, если сообщения на одну тему идут в разные ведомства. То есть, человек пишет уже всем. Сюда написал, туда написал - проблемы не решают. Это повод для беспокойства. Условно говоря, ведомства этого даже не видят. Часто не знают, что человек уже в 5 ведомств написал, а проблема человека не решается, значит есть риск конфликта.

Итак, вы научились мониторить СМИ и соцсети. В чем заключается следующий шаг?

Роман Сафронов: Необходимо масштабирование, чтобы увеличить охват.

Как можно измерить охват? Какой вам нужен и какой есть сейчас?

Роман Сафронов: Принцип такой. Чем больше данных, тем лучше анализ. Лучше анализ - лучше прогноз. У нас есть статистические данные, которые характеризуют социально-экономическую ситуацию. При этом данные очень часто недостоверны в силу многих причин. Мы должны минимизировать риски, связанные с принятием решений на недостоверных данных.

Второе - это проблемы, которые, на мой взгляд, есть при внедрении аналитических систем в любых ведомствах. Все почему-то считают, мы во многом ориентируемся на возможности Palantir или продукты IBM схожей тематики. При этом все восторгаются Palantir, но у меня такое впечатление, что никто из здравомыслящих людей не зашел и не посмотрел, как эта штука работает, хотя презентаций достаточно много.

В этом году прошло сообщение о том, что Министерство обороны США хочет отказаться от Palantir и заменить ее на какую-то новую систему. Я понимаю, в чем проблема. У них там огромные базы данных подключены, хорошие инструменты для аналитики, все супер. А дальше садится аналитик Palantir и, грубо говоря, придумывать бизнес-логику проведения анализа. А давайте вот это сложим с этим, посмотрим, что будет. А теперь давайте на это наложим вот это. В госорганах не было, нет и никогда не будет таких аналитиков, а в муниципалитетах тем более. По большому для госорганов нужна другая идеология работы с аналитическими системами. Госорганам нужно, чтобы в системе были реализованы математические модели. Закономерности установлены. Чиновники разработать их сами с высокой долей вероятности не смогут. Есть, конечно, энтузиасты, но их на пальцах руки можно посчитать. То есть, система должна выдавать, грубо говоря, индикативные подсказки. Лапочка загорелась - иди туда, другая лампочка - иди в другое место, все работает по четкому алгоритму. А Palantir - это инструмент индивидуальной научно-исследовательской деятельности. В госорганах это не работает.

Мне рассказывали, что на развитие системы у вас запланирован бюджет около миллиарда рублей. Какие это статьи расходов?

Роман Сафронов: Вопрос в том, сделать все и сразу или постепенно и долго. Действительно, по нашим оценкам, на реализацию всего требуемого функционала понадобиться около миллиарда. Примерно половина требуется на разработку софта. Остальные – на небольшой центр обработки данных и ситуационный центр.

Полмиллиарда на софт - это очень много. Что именно предполагается реализовать?

Роман Сафронов: Доработки потребуются для более эффективного мониторинга социальных сетей, а также для наблюдения за сообщениями в мессенджерах – WhatsApp, Viber, Telegram. Ведь это направление социальных коммуникаций постоянно развивается.

Все, что связано с экстремизмом, с профилактикой экстремизма, относится к гостайне. Соответственно необходимы средства защиты и т.д. Поэтому мы не можем в этой связи рассчитывать на Минкомсвязь, говорить про гособлако, про СМЭВ (СМЭВ и гособлако по законодательству не используются для работы со сведениями относящимися к гостайне). Кроме того, использование СМЭВ стоит дорого: и поддержка, и эксплуатация. С точки зрения открытых данных для оценки социальной напряженности, речь не идет о регулярных транзакциях. А СМЭВ эффективен, когда запросы отправляются каждый день. Нас же устроит пакетная загрузка раз в месяц, раз в квартал. Там динамики за месяц практически нет.

Откуда вы получаете эту информацию?

Роман Сафронов: От МВД, ФСБ, ФСО, Минюст и ряд других ФОИВов.

Чтобы корректировать региональные ситуации?

Роман Сафронов: Ну, да. Условно говоря, за месяц социально экономическая напряженность не меняется. Она меняется на более длительных периодах. В этой связи пакетная загрузка экономически более выгодна, чем делать это через СМЭВ. Да и технологически это сделать проще.

С ЦОДом и СМЭВом понятно. Расскажите, пожалуйста, как вы получите доступ к WhatsApp, Viber, Telegram.

Роман Сафронов: Мы доступ не получим. На сами мобильные устройства мы залезать не будем, но трафик-то идет по магистральным каналам. Соответственно, к этой «трубе» доступ можно получить.

А как же шифрование?

Роман Сафронов: Есть способы решения этого вопроса, но в технологические аспекты углубляться не хотелось бы.

А СОРМ не справляется с этим?

Роман Сафронов: СОРМ не решает наши задачи. И мы не можем использовать его по закону. СОРМ предназначен для другого, и он не может выделить результат, который нужен нам. Там ведется слежка за конкретным преступником с таким-то телефонным номером. У нас же обезличено. Нам нужен поток.

Т.е. вам нужны ключевые слова и лингвистика?

Роман Сафронов: Лингвистика и активность. Мы хотели бы видеть, например, что в WhatsApp активно призывают выйти на демонстрацию в определенном районе по поводу нарушения прав какой-то народности или к неповиновению. Нас вот эта составляющая интересует, и нам все равно, кто это пишет.

Т.е. вы не намерены вычислять разжигателя?

Роман Сафронов: Нет, это вопрос правоохранительных органов. Мы занимаемся тем, что до преступления. Все, что касается преступления и дальше – это правоохранительные органы. Мы говорим - в интернете активно муссируется тема с призывом вывести людей на баррикады против такого-то имама в населенном пункте Х. Мы сообщили местным органам власти, полиции.

Помните недавний случай в Калмыкии – конфликт между борцами? Призывы собраться-разобраться тогда распространялись в одной из групп «Вконтакте». Но формально это даже под закон об экстремизме не подпадает, поэтому группу даже нельзя было заблокировать. Мало ли куда они агитировали собраться? Может на рыбалку?

Система дала сигнал об активности, мы отреагировали, залезли- посмотрели, стали разбираться, в чем там дело. Позвонили в МВД, ФСБ, те говорят - вроде ничего нет, но стали перепроверять. В результате быстро выставили посты и развернули всех собравшихся. Понятно, до какого-то момента система мониторинга работает автоматом, но потом в любом случае нужно подключать людей. Хотя в постоянном режиме оператор не требуется.

Каким образом будет осуществляться перехват трафика с мобильных мессенджеров? Вы будете ставить оборудование для этого на сетях операторов? Какая законодательная основа под этим?

Роман Сафронов: Формально, сейчас у нас есть поручение.

От кого?

Роман Сафронов: От президента, совета безопасности, от комиссии по экстремизму.

О чем?

Роман Сафронов: По поводу того, что это должно быть реализовано. Нам необходимы IP-адреса тех, кто читает те или иные сообщения. Мы об этом уже говорили сегодня. Нужна «тепловая карта». У оператора должно быть соответствующее оборудование, чтобы предоставлять эти данные, которого у него сейчас нет. Далее он с этого оборудования должен забрать эту информацию. Детали еще прорабатываются.

Еще один вопрос заключается в том, получать ли информацию по всем сообщениям или только по запросу. Можно все, но для чего это нужно и сколько это стоит для бюджета. Должен быть какой-то баланс. В итоге пока мы выработали модель, что, наверное, правильнее будет получать по запросу. Это сэкономит деньги на хранении и обработке всякого мусора. И оператору не придется обрабатывать весь шлак. У нас специфика — мы не следим за гражданами, организациями. Нам все равно, кто это написал. Наша задача выявить, что тема резонансная, популярная.

DPI не позволяет этого?

Роман Сафронов: DPI этого сделать не может. Соответственно, мы должны: а) получить, б) обработать и с) разнести, то есть, трактовать. Мы уже приступили к отработке, был пилот. И мы сказали, что у вас должна быть такая железка, такой-то софт, такой-то формат взаимодействия.

Это вы с Ростелекомом отрабатываете?

Роман Сафронов: Со Спутником.

Спутник же не оператор, он не имеет доступа к каналам.

Роман Сафронов: Как-то решаем.

Роль Спутника здесь в чем?

Роман Сафронов: Спутник – это сервис, который обрабатывает информацию. Его задача – собрать информацию с железок, обработать, очистить и отдать нам в требуемом виде.

Речь идет о текстовых сообщениях? Или голос тоже?

Роман Сафронов: Пока мы говорим про текст. Можно потратить силы на работу с видео, аудио или изображениями, но бюджет должен быть другой. При этом будет ли оно существенно влиять на эффективность? Повторюсь, сам факт появления новости мы не можем предотвратить. Наша задача понять, спрогнозировать или оценить. Вовремя отреагировать на ее резонанс. А чтобы ее разогнать, ее все равно нужно перевести в текстовый формат.

В какие сроки вы рассчитываете реализовать планы?

Роман Сафронов: Мы считали до 2020 года.

То есть, этот миллиард - это бюджет до 2020 года?

Роман Сафронов: Да, но с учетом того, что за последний год возникло много поручений - мониторить русский язык, мониторить применение национальных языков и еще ряд факторов, получается, что на полную мощность систему нужно вывести уже в 2017 году. Можно сделать за год, а можно растянуть на 10 лет, но тогда, как вы понимаете, все риски, связанные с развитием конфликтов, мы отследить не сможем. Чудес не бывает. Либо ты видишь все, либо ты видишь чуть-чуть.

По нашим оценкам, сейчас мы видим организацию мероприятий, событий или конфликтов с количеством участников где-то от 1500 человек. Но при этом где-то 40% населенных пунктов в России - малые. И для них, допустим, митинг на 500 человек уже будет критичным, а их мы можем не увидеть. Они как раз зачастую и используют более простые механизмы, чем соцсети - группы WhatsApp или Telegram.

Т.е. с учетом всех запланированных работ вы сможете мониторить большее количество таких назревающих конфликтных ситуаций, в том числе через мессенджеры?

Роман Сафронов: Да. И не только мониторить, но и своевременно прогнозировать и реагировать.