Аналитический курьер

Продукт
Разработчики: Ай-Теко (iTeco)
Технологии: Data Mining,  OLAP,  Корпоративные порталы,  Офисные приложения,  СЭД,  СЭД - Системы потокового распознавания

Содержание

«Аналитический курьер» – программный продукт, инструмент аналитической разведки информационного пространства, разработанный для извлечения знаний из данных, которые поступают в режиме реального времени из огромного числа разноформатных источников. Благодаря использованию методологии семантического анализа система проводит детальный анализ неструктурированной информации, устанавливает связи между объектами, событиями, темами, строит прогнозы возникновения определенных ситуаций, а также выявляет источники информационных кампаний, атак и пр. В состав системы входит отказоустойчивое масштабируемое хранилище Big Data, которое позволяет обрабатывать миллиарды документов и может использоваться как самостоятельное решение. Продукт разработан и применяется для мониторинга сегментов рынка, анализа имиджа персон и организаций, конкурентного анализа, а также в деятельности страховых и кредитных организаций, правоохранительных органов и спецслужб. Компоненты системы используются также в системе патентного поиска Роспатента.

Функции:

  • параллельная обработка разнородной неструктурированной информации из различных источников: управленческих и юридических документов, сообщений СМИ, сообщений информационных агентств, аналитических материалов различного профиля, ресурсов сети Интернет, и др.;
  • поиск ресурсов в Интернет через поисковые сайты, или по списку исследуемых сайтов;
  • многоязычный семантический поиск с использованием современного тезауруса русского и других языков, обработка запросов на естественном языке для текста на европейских языках;
  • доставка тематически структурированного в виде дерева списка релевантных документов (онтологии);
  • автоматическое общее и тематическое реферирование коллекций или отдельных документов;
  • тематическое рубрицирование документов и публикаций;
  • определение тональной окраски документов и отдельных объектов, выделение упоминаний и цитирования;
  • определение индекса информационной значимости объекта мониторинга;
  • автоматическое выделение тематических групп внутри полученной по запросу подборки документов (кластерный анализ публикаций);
  • выявление ключевых тем документа, коллекции документов, построение их взаимосвязей в виде семантической сети;
  • построение дайджеста (обзора) по каждому объекту или теме документа;
  • частотный анализ рубрик и публикаций, многомерная аналитическая обработка данных, исследование динамики развития проблем, представленных в документах, Визуализация частотных распределений на географической карте;
  • выделение сущностей на русском и английском языках;
  • поиск в персональных библиотеках пользователей, Автоматическая доставка новых документов по выбранной тематике;
  • регламентный выпуск аналитических отчетов;
  • регистрация значимых действий пользователей.

Архитектура программного комплекса

Система «Аналитический курьер» реализована на Windows-платформе .NET. имеет трехзвенную архитектуру с «тонким» клиентом и предоставляет пользователям Web-интерфейс.

Для особо ответственных приложений реализована архитектура системы с компонентами, работающими в разделенных сетях. Например, WEB-роботы производят мониторинг сети Интернет, результаты переносятся во внутреннюю сеть и автоматически вводятся в хранилище системы, где доступны все фонды для совместной обработки закрытой и открытой информации.

=== Хранилище аналитических данных реализовано для СУБД MS SQL Server и ORACLE ===.

Система «Аналитический курьер» развивается в направлении улучшения качества анализа текстов, увеличения спектра поддерживаемых иностранных языков, поддержки большего числа серверных и портальных платформ, улучшения интерфейса аналитика и администратора.

Конкурентные преимущества

«Аналитический курьер» позволяет быстро погружаться в новые предметные области, структурировать проблематику, готовить отчёты и информационно-аналитические материалы. Уникальной особенностью системы является совместное применение различных визуальных методов извлечения знаний к одной подборке документов, например, сначала производится построение онтологии подборки документов; ее кластерный анализ, затем может строиться семантическая сеть тем для выбранного кластера, после чего — частотный анализ временного ряда документов по взаимосвязанным проблемам и т.д. В системе реализован уникальный метод определения тональности публикаций.

Широкий спектр функциональных возможностей системы обеспечили ей внедрение в организациях, обрабатывающих большие объёмы документов и сообщений различной структуры.

К важному достоинству системы относится минимальная стоимость ее эксплуатации по сравнению с наиболее известными на рынке системами.

Примеры экранных форм системы

Образец тематической кластерной карты сообщений:

Образец семантической карты взаимосвязей тем сообщений:


Примеры пользования

  • Аналитические подразделения и службы безопасности банка:

анализ кредитоспособности клиента, выявление объектов, осуществляющие подозрительные платежи, выявление случаев распространения конфиденциальной информации и т.д.

  • Страховые компании:

обнаружение мошенников, неоднократно причинивших ущерб, недобросовестных объектов-страхователей, их связей, а также закономерностей событий (по месту и времени), происходящих с клиентами страховой компании.

  • Аналитические подразделения производственных компаний:

анализ наиболее частых неполадок; анализ реакции рынка на качество товаров, помощь в принятии решений.

  • Подразделения маркетинга предприятий (анализ рынка лекарств, изделий):

обеспечение лиц, принимающих управленческие решения, информацией для выработки оптимального варианта решения стоящей проблемы.

  • Специальные службы, правоохранительные органы:

мониторинг событий, объектов, проблем и анализ взаимосвязей исследуемых сущностей.

Новые возможности

Динамическая онтология поисковой выдачи документов

Для пользователей поисковых систем весьма актуальна задача выделения «своих» документов среди всех документов в поисковой выдаче. Для этой цели в системе извлечения знаний из документов «Аналитический курьер» уже используются методы кластерного и семантического анализа. В поисковых серверах таких компаний, как Google и Vivisimo реализована возможность построения тематического дерева (онтологии), в каждом из узлов которого расположена группа тематически однородных документов выдачи.

Классические методы тематического (кластерного) анализа, основанные на мерах близости между документами, разделяют поисковую выдачу на группы сходных документов – т.н. кластеры, в которых документы попарно похожи друг на друга, но «существо» сходства может отличаться у разных пар из одного кластера, например, одна пара схожа по сущности «развитие экономики», а вторая – по сущности «демографический кризис».

Для повышения достоверности кластерного анализа мы использовали метод бикластеризации (объектно-признаковой, концептуальной кластеризации), в котором сходство объединяемых в один кластер документов выражается через общие структурные признаки (сущности, темы), выделенные из документов. Преимуществом метода является наличие всех тем кластера в каждом документе. Также важно, что он хорошо работает при небольшом числе документов в выборке. В основе бикластеризации лежит метод анализа формальных понятий (АФП) – мощный метод анализа данных, который успешно применяется на практике. Для получения тематического дерева сначала формируется решётка формальных понятий в виде двумерной матрицы, строкам которой соответствуют документы, а столбцам – сущности, извлеченные из них. Если документ содержит конкретную сущность, то на пересечении этих столбца и строки стоит частота ее появления в документе. Таким образом, решётка содержит всю информацию о взаимозависимостях, существующих между документами и сущностями. Визуальным представлением выявленных в решетке формальных понятий зависимостей является дерево кластеров документов.

Как всё работает?

Полученную по результатам поискового запроса подборку сначала обрабатывает семантический процессор, выделяющий сущности из документов. Затем аналитический процессор по документам и сущностям формирует решетку формальных понятий. На основании ее анализа, определяются и удаляются линейные зависимости между документами и сущностями: удаляются похожие документы, а также повторяющиеся или незначимые сущности, в результате остаются только документы и сущности, независимые друг от друга. На основании общих значимых сущностей документы исходной подборки разделяются на кластеры, для визуализации которых строится многоуровневое дерево.

Быстродействие программы бикластеризации практически не зависит от объема выборки документов. Скорость визуализации дерева зависит только от числа параллельно работающих пользователей. Время реакции системы при работе с документами кластеров также практически не увеличилось, поэтому мы рассчитываем на массовое использование данного инструмента нашими многочисленными пользователями.

Пример использования

Поисковая выдача примера получена в результате поиска в системе «Аналитический курьер» по запросу «[(журналист редактор корреспондент) & (гонения убийство избиение заключение "увольнение под давлением" нападение угроза репрессии арест преследование задержание уголовное давление)]».

Ниже представлен результат обработки системой «Аналитический курьер» поискового запроса. В левой части экрана пользователь может просматривать дерево кластеров, выбрать заинтересовавший его кластер, после чего в правой части система отображает входящие в него документы. Каждый документ кластера содержит все сущности, перечисленные в иерархии соответствующих ему узлов дерева. Документ может одновременно присутствовать в нескольких кластерах.

Метод концептуальной кластеризации документов доступен в актуальной версии системы «Аналитический курьер».


Развитие компонентов лингво-семантического анализа текста на русском и английском языках

Лингвистический анализ текста

Разработан программный компонент, выполняющий следующие функции:

  • лексический анализ (разбиение текста на предложения и лексемы),
  • морфологический анализ (определение морфологических характеристик слов, таких, как: часть речи, род, число, падеж и т.д., и синтез словоизменений),
  • предсинтаксический анализ (выделение групп лексем - синтагм и др.),
  • синтаксический анализ (построение дерева разбора предложения и определение синтаксических ролей слов в предложении: подлежащее, сказуемое, дополнение, обстоятельство и т.д.),
  • постсинтаксический анализ (выделение типизированных сущностей, …).

Семантический анализ текста

Последующий семантический анализ текста производит типизацию сущностей (физические, юридические лица; одушевленные предметы; даты; регионы и многие другие типы), а также их нормализацию. Для идентификации ссылочно представленных сущностей (местоимения) используются различные эвристические методы: Разрешение анафорических ссылок. Пример. Если в найденном факте присутствуют местоимения («он», «она» и т.д.), то производится идентификация объекта – источника ссылки.

Разрешение аббревиатур. Пример. Если в факте встретилась аббревиатура в качестве названия объекта, то производится идентификация полного названия объекта – источника аббревиатуры. Например, если в тексте встретилась — «НЛМК», то просмотрев текст и найдя в нем «Новолипецкий меткомбинат» система сгенерирует синоним для НЛМК. Идентификация географических объектов. Пример. Если в факте встретился географический объект с названием, например, «деревня Иваново», то производится поиск других географических объектов в тексте, например, «Московская область», что позволит связать найденную деревню «Иваново» именно с той в справочнике стран и регионов, которая находится в Московской области. Поиск наиболее полного наименования персоны. Пример. Если в факте встретился объект типа «персона», то система будет искать по тексту ее более полное наименование. Например, если в факте встретилась персона «Д. Медведев», а по тексту выше есть персона «президент России Д. Медведев», то система возьмет это последнее наименование, как наиболее полное в данном тексте.

Выделение многих типов сущностей (адреса, телефоны и т.д.) производится с помощью расширяемых (в том числе и пользователем) правил.

Тезаурус русского языка

Завершена разработка нового современного тезауруса русского языка, совместимого со стандартом WordNet 3.0. Он имеет уникальный объем, в его составе более 160 тысяч групп синонимов, 700 тысяч связей между ними, 170 тысяч лексем и 13 типов семантических отношений.

Разработан web-сервис для управления тезаурусом. Он может быть использован как в системах «Аналитический курьер» и `X-Files`, так и в других системах. Его особенностью является возможность одновременной работы, как с общим, так и с тематическими тезаурусами заказчика. В поставку программного компонента входит инструмент для создания нового или редактирования существующего тезауруса.

Динамика развития функций системы «Аналитический курьер»

Ключевые темы

Search; federated search, multilingual search, content analytics, content classification, categorization and clustering, fact and entity extraction, taxonomy creation and management, information presentation (for example, visualization) to support analysis and understanding.

Поиск информации; поиск по нескольким источникам, многоязычный поиск, аналитическая обработка текстовой информации, инструменты визуальной аналитической обработки текстовой информации, классификация содержимого документов, категоризация и кластеризация, выделение сущностей, выделение отношений, выделение фактов, создание таксономий и онтологий, визуализация информации с использованием геоинформационных служб.

Заключение

Патентованный продукт компании «Ай-Теко» «Аналитический курьер» лежит в основе арсенала систем аналитической разведки компаний, обеспечивает их качественно новые конкурентные преимущества, безопасность и динамичное развитие.



ПРОЕКТЫ НА БАЗЕ (1) РЕШЕНИЕ НА БАЗЕ (2) СМ. ТАКЖЕ (5)


Подрядчики-лидеры по количеству проектов

За всю историю
2016 год
2017 год
2018 год
Текущий год

Подрядчики-лидеры по количеству проектов

За всю историю
2016 год
2017 год
2018 год
Текущий год

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2016 год
2017 год
2018 год
Текущий год

Распределение базовых систем по количеству проектов, включая партнерские решения

За всю историю
2016 год
2017 год
2018 год
Текущий год

  DocsVision (СЭД/ECM-система) - 37 (31, 6)
  ТЕЗИС - 17 (17, 0)
  Дело (ЭОС) - 16 (16, 0)
  ЭЛАР ПланСкан - 12 (12, 0)
  ABBYY FlexiCapture - 8 (8, 0)
  Другие 86

  DocsVision (СЭД/ECM-система) - 36 (33, 3)
  ТЕЗИС - 32 (32, 0)
  ЭЛАР ПланСкан - 26 (26, 0)
  Syntellect Tessa - 17 (16, 1)
  Smart IDReader - 16 (16, 0)
  Другие 116

  Syntellect Tessa - 56 (56, 0)
  ТЕЗИС - 55 (55, 0)
  DirectumRX - 36 (36, 0)
  Synerdocs - 28 (28, 0)
  DocsVision (СЭД/ECM-система) - 24 (21, 3)
  Другие 129

  Smart IDReader - 12 (12, 0)
  ТЕЗИС - 8 (8, 0)
  ЭЛАР ПланСкан - 8 (8, 0)
  1С:Документооборот 8 - 7 (6, 1)
  Synerdocs - 6 (6, 0)
  Другие 37