2018/07/05 12:05:23

«Умный» документооборот:
как внедрять машинное обучение в СЭД
и так ли это необходимо

Интеллектуальные алгоритмы (ИА) уже готовы для работы с документами в системах электронного документооборота, но готовы ли к этому компании? То, что будущее, где алгоритмы машинного обучения (МО) могут заменить секретарей или регистраторов, наступило, подтверждается пока немногочисленными, но реальными испытаниями возможностей применения МО в СЭД в России.

Содержание

При появлении любой новой технологии назревает вопрос — для чего это нужно, для кого и, последний, как это внедрять. О повсеместном переходе на электронный документооборот говорили 10 или больше лет назад, и до сих пор о нем говорят как о еще не завершившемся процессе. Бумажные документы по-прежнему присутствуют в организациях. Цифровая трансформация продолжается (или начинается, по мнению некоторых). Сколько же лет потребуется, чтобы принять на «службу» в канцелярию ИИ, и для решения каких задач это действительно будет эффективно?

Компания «Диджитал Дизайн» — одна из немногих, кто добился в этом направлении определенных успехов и показал практические результаты. На счету компании — три пилотных проекта, которые показали широкие возможности применения интеллектуальных алгоритмов (ИА) для решения задач канцелярии, реализованных на базе СДУ «Приоритет» на платформе Docsvision. И, что интересно, одними из первых подопытных для изучения возможности применения интеллектуальных алгоритмов в СЭД стали государственные организации.

Во-первых, госсектор — основной заказчик СЭД/ЕСМ-систем, госучреждения обрабатывают колоссальный объем документов с регламентированным временем их отработки, и от качества и эффективности документационного взаимодействия во многом зависит оперативность и эффективность работы органов государственной власти. Функции СЭД в госорганах не ограничиваются внутренним управлением, большой объем занимает внешний документооборот — коммуникация с гражданами и организациями по предоставлению государственных сервисов. В связи с развитием электронного правительства количество обрабатываемых запросов может достигать нескольких тысяч в день.

Во-вторых, процессы в государственных структурах типизированы, как и документы, поэтому применение интеллектуальных алгоритмов будет более эффективным, нежели в структуре, где сложная и уникальная организационная структура.

Машинное обучение может ускорить процесс обработки документов, подготовить все необходимые для принятия решения человеком данные, а еще предотвратить человеческие ошибки, и без помощи супер мощного компьютера. Скоро наступит тот день, когда люди перестанут понимать, кто отвечает на запрос — искусственные алгоритмы или секретарь... Но пока машинное обучение занимается другими задачами.

Прикладные задачи машинного обучения

«Умные» технологии призваны, в первую очередь, помочь человеку избавиться от рутинных операций, не требующих принятия каких-либо решений. Благодаря применению алгоритмов машинного обучения документ может пройти весь путь от регистрации до формирования с минимальным вмешательством человека в процесс. Хотя сперва машине все же необходимо будет научиться получать различные представления из массива данных (Big Data), в данном случае — это результаты обработки конкретных документов человеком.

Машинное обучение представлено в наши дни множеством алгоритмов, некоторые являются довольно универсальными и могут использоваться для разных задач. Чтобы понять, какое место занимают алгоритмы машинного обучения в процессе документооборота, разберем блок задач по обработке текстов, решения которых легли в основу новых функциональных модулей системы документационного управления «Приоритет» на базе Docsvision.

Кластеризация документов

Одна из первоочередных (а ещё и самых простых, но важных) задач анализа данных, полученных из системы электронного документооборота — это построение кластерной модели данных. Кластерный анализ представляет собой разбиение базы данных на кластеры — группу похожих элементов — и имеет широкий круг применимости. В целом, с учетом объемов документов, которые обрабатывают системы документооборота, умение системы разбивать документы на кластеры будет полезно перед применением любых алгоритмов машинного обучения в ней. Кластеризация будет полезна для упрощения решения таких задач, как поиск дубликатов, поиск близких/похожих документов и др., а также позволит построить алгоритм для более точного предсказания атрибутов документов. Наиболее очевидные варианты практического применения результатов кластеризации — это автоматическая классификация (или тэгирование) новых документов.

На изображениях №1 и №2 представлены результаты кластеризации базы данных реальных документов, проведенной специалистами «Диджитал Дизайн» в ходе пилотного проекта в госучреждении. Система, обнаруживая сходства в тексте, определяет документ к одному из кластеров, таким образом упорядочивает объекты в сравнительно однородные группы.

Рис. 1
Рис. 2

Предсказание атрибутов документов

Любой электронный документ сопровождается набором атрибутов (автор, подразделение, вид документа, исполнитель, и др), которые необходимо заполнить для его дальнейшей обработки, а также последующего поиска документов и формирования отчетов. Собственно, процесс обработки документа полностью зависит от набора его атрибутов: например, документы, поступившие от определенного адресата и по конкретной теме (те самые категории, о которых было сказано чуть выше), должны обрабатываться конкретным подразделением и по вполне конкретным правилам. Сейчас эта процедура обработки каждого документа выполняется на 100% вручную. Но, учитывая структурированность этой информации, тем же правилам легко обучить и алгоритм МО. «Проглотив» добротную базу данных, в которой документы структурированы в соответствии с правилами организации, алгоритмы машинного обучения будут готовы самостоятельно прогнозировать новые атрибуты и маршруты обработки для новых документов, а также прогнозировать количество дней, требующихся для выполнения задания, и определять исполнителя. Для того, чтобы алгоритмы научились это делать с высокой точностью, необходима база структурированных и не очень данных огромных объёмов.

В ходе испытаний алгоритмов машинного обучения специалистам «Диджитал Дизайн» удалось достигнуть 95% точности определения подразделения, ответственного за обработку документа, по его содержанию.

Рис. 3
Рис. 4

Другие актуальные задачи

Автоматическое реферирование

Ручное реферирование (формирование краткой содержательной «выжимки» из полного текста документа) — сложная, рутинная работа, требующая больших трудозатрат, поэтому здесь также целесообразно использовать инструменты автоматической генерации краткого изложения текста. Первые публикации по теме методов автоматического реферирования текстов появились ещё в 1958 году. С тех пор было разработано большое количество методов и улучшилось качество результатов.Российский рынок CRM-систем: оценки, тренды, крупнейшие поставщики и перспективы. Обзор TAdviser 149 т

Основные задачи автореферирования в СЭД — это выделение главной информации в документе, исключение дублирования.

Выделение аномалий в договорах

Эта задача сводится к тому, чтобы находить нетипичные части в тексте договора: ошибки, новые или отсутствующие пункты. Для человека это достаточно длительный процесс и не такой простой, а вот алгоритмы машинного обучения справляются с задачей за считанные секунды.

Где это может применяться и как это работает?

Прежде чем эти алгоритмы МО получили право стать частью процесса документооборота и самостоятельными функциональными блоками в системе, специалисты «Диджитал Дизайн» провели исследования на базе, содержащей более 1 000 000 реальных документов. Главный результат этого исследования — подтверждение возможности применения МО в работе СЭД для разнообразных задач.

Конечно, основная задача — это повышение эффективности использования и анализа накопленной базы знаний. Если говорить более подробно о том, какую пользу могут привнести алгоритмы в неструктурированную работу с документами с высокой степенью опасного влияния человеческого фактора, то МО:

  • Поможет справиться с растущим потоком входящих документов и обращений
    • На основе содержимого текста поступившего файла система автоматически заполняет необходимые данные в карточке документа, устанавливает взаимосвязь с другими похожими документами или перепиской и сама предлагает адресата сообщения, основываясь на данных о выполнении схожих вопросов. И по тому же принципу сама определяет сроки обработки документа.

  • Поможет повысить персональную продуктивность сотрудников

    • Алгоритмы выбирают подходящего исполнителя поручения не только исходя из профиля задания, но и загрузки сотрудника, позволяя таким образом распределить нагрузку между исполнителями.

  • Упростит работу с организационно-распорядительной документацией (ОРД) и нормативными актами

    • Система за несколько секунд автоматически определит маршрут согласования проекта на основе его содержания, найдет связанные нормативные акты и ОРД и составит резолюцию документа. Как результат, ускорение процесса согласования и уменьшение ошибок при выпуске документов.

  • Повысит уровень безопасности данных ограниченного доступа

    • Интеллектуальный мониторинг базы документов, предназначенных для служебного пользования, обеспечит защиту от несанкционированного доступа, предупредит о подозрительной пользовательской активности.

Особенности внедрения

Машинному обучению, а точнее той математической магии, которая под ним скрывается, на самом деле уже больше 50 лет. Но только сегодня увеличение мощности рабочих компьютеров сделало возможным применение алгоритмов для решения повседневных задач. Раньше для того, чтобы решить задачу с помощью МО потребовался бы суперкомпьютер, а теперь достаточно ноутбука. За это время data scientists смогли достичь больших успехов в разработке алгоритмов, технологиях семантического анализа текста, что позволило решать задачи с достаточно высокой точностью, затем появился электронный документооборот, эксперты стали утверждать о повсеместном внедрении СЭД. Как следствие, компании накопили достаточно электронных документов для того, чтобы можно было найти общие закономерности данных, интересные зависимости и, наконец, применить алгоритмы машинного обучения.

И, казалось бы, созданы все условия для того, чтобы выдернуть человека из процесса обработки документов, и полностью самостоятельный организм СЭД в тандеме с алгоритмами машинного обучения заработает, но на самом деле так думать рано. Во-первых, принятие решений по-прежнему остается за человеком, сколько бы алгоритмов ни подключили к обработке документа, они не смогут принять важное управленческое решение или решение о сокращении бюджета, например. Во-вторых, как показали исследования «Диджитал Дизайн», алгоритмы должны применяться к структурированным базам данных, тогда они смогут выполнять задачи с высокой точностью, поэтому уже сейчас стоит приступать к проектированию такой модели данных путем применения алгоритмов машинного обучения и анализа данных. Без участия человека на первом этапе обучения алгоритмов не обойтись. Как это правильно сделать и с чего начать — подскажут специалисты «Диджитал Дизайн», у которых уже есть практический опыт внедрения алгоритмов машинного обучения в СЭД.