2015/04/23 19:35:28

Виды систем потокового ввода документов

Нам всё грезится, что безбумажная эра, наконец, наступила. Количество папок в шкафах сотрудников действительно уменьшилось. В госструктурах есть базы данных, с помощью которых оказываются госуслуги, есть портал, СМЭВ и РСМЭВ – с их помощью мы можем эффективно взаимодействовать с различными ведомствами. У нас есть СЭД, помогающие нам управлять документами. У нас есть электронные архивы, которые при отделении зерен от плевел (простите, документов от данных), дают нам возможность по данным из и ERP подтягивать документацию и так далее и так далее. Но безбумажное царство и королевство информационных систем скромно обслуживает участок ввода или центр оцифровки. Именно здесь отделяются данные от документов, и закладывается колоссальный потенциал для решения конкретных функциональных задач – быстрое составление подборок документов, обработка обращений граждан, формирование аналитики по документам и сведениям и т.д.

Содержание

В статье мы рассмотрим три вида системы потокового ввода документов

Сразу оговоримся, что система потокового ввода «всеядна»: текущие, архивные, структурированные, слабоструктурированные, неструктурированные; бумажные, электронные, разных типов, форматов и состояний могут быть введены в информационные системы, из всех могут быть извлечены актуальные данные. Под каждый тип документов подбираются соответствующие оборудование и программное обеспечение.

Участок ввода

Участок ввода организуется, когда есть задача оцифровки определенных документов подразделений, где нет необходимости в территориально распределенной структуре участков сканирования, поэтому на участке ввода может быть несколько сканеров, но одного типа (документный, планетарный и т.д.) Например, участок ввода технической документации, бухгалтерской документации и т.д. Участок ввода может содержать любое необходимое ПО. То есть участки ввода, могут быть в различных подразделениях, и каждое подразделение будет загружать в единую учетную систему свои документы – ПБД, чертежи и т.д.

Отдельно следует отметить ОЦО – Общие центры обслуживания, в которых организуются участки ввода. В крупных компаниях, холдингах с территориально распределенной сложной структурой создается единое подразделение, в которое передаются бизнес-процессы определенного направления для всей организации. Например, в бухгалтерском ОЦО сосредотачиваются функции финансового и налогового учета. То есть, вместо 10 бухгалтерий в каждом филиале, создается ОЦО, и в нем консолидируется обработка финансовой информации всех предприятий группы какого-либо холдинга, что оптимизирует штат и сокращает операционные затраты. В ОЦО создается участок ввода где оцифровываются все финансовые документы и загружаются в единую ИТ систему (то есть по сути в рамках ОЦО создается такой же участок ввода для подразделения, только для подразделения в виде ОЦО).Догнать и перегнать: Российские ВКС прирастают новыми функциями 8 т

В крупных организациях, особенно с территориально распределенной структурой, остро стоит задача своевременного поступления документов из удаленных подразделений и филиалов в главный офис. Эта задача может решаться курьерской доставкой бумажных документов в единый центр, после чего они сканируются, индексируются и загружаются в корпоративные информационные системы. Основным недостатком такого подхода является невозможность обеспечить оперативное наполнение документами информационных систем вследствие объективных ограничений по минимально возможному сроку поставки (от одного до нескольких дней). К другим существенным недостаткам можно отнести значительные затраты на транспортировку, а также возможность потери документов в пути. Поэтому если организация – это не крупный холдинг, нет смысла создавать ОЦО. Другой подход – это центр оцифровки, состоящий из различного вида оборудования под централизованным управлением.

Центр оцифровки

Центр оцифровки предполагает программно-аппаратную составляющую, в которую входят различные виды сканирующего оборудования и программного обеспечения.

Для организации распределенного ввода документов в главном офисе организации создается универсальный центр оцифровки, который призван оптимизировать технологический цикл потокового ввода и обработки документов в территориально удаленных предприятий и управлять им. В каждом удаленном подразделении создается участок сканирования/обработки документов. После оцифровки электронные копии документов в режиме реального времени поступают на дальнейшие этапы обработки в главный офис, где осуществляется распознавание, индексирование, верификация и наполнение базы данных и корпоративных информационных систем.

Организация распределенного сканирования документов и передачи электронных образов из подразделений обеспечивает наглядность и прозрачность процесса поступления информации, осуществляет учет поступивших образов документов и объемов проделанной работы.

В зависимости от потока документов распределенное сканирование бумажных документов осуществляется на уровне отделов и служб или на специально созданном участке. В подразделениях реализуется только сканирование документов и их пересылка в главный офис. Целесообразность осуществления дополнительных операций по сортировке документов и индексированию на местах определяется в результате экспертизы потоков документов и анализа бизнес-процессов организации в целом и ее территориально удаленных подразделений.

В центре оцифровки осуществляется сортировка документов по типам, сканирование, полное или частичное распознавание, индексирование по заданным полям, проверка корректности распознанной информации, наполнение базы данных и существующей АИС (в частности, СЭД).

Собственно, в рамках участков оцифровки может стоять несколько видов сканеров для разных документов: на загруженных участках устанавливаются скоростные сканеры для расшитых документов, типа ЭларСкамакс, для оцифровки сшитых документов используется планетарное оборудование. На небольших участках могут стоять обычные офисные сканеры, а также широкоформатные сканеры.

В процессе сканирования осуществляется улучшение качества образов: процесс очистки изображения («очистка от мусора», «удаление шума», устранение различных искажений, выравнивание и ориентация страницы, перенесение границы листа и другие функции предварительной обработки изображения). Процесс может быть как полностью автоматическим, так и с участием операторов.

Когда шаблонное распознавание «захлебывается»

Продукты шаблонного распознавания могут «захлебываться», когда им предстоит распознать, к примеру, более тридцати различных типов документов при прочих равных условиях центра оцифровки.

Например, в органе управления имуществом региона для решения множества задач различными подразделениями востребованы 17 млн документов 30-ти типов, создававшихся в течение долгого времени. Органу управления будет необходимо спрогнозировать некий оптимальный набор индексных полей, что крайне сложно, — архив документов можно сделать универсальным только при условии избыточного индексирования. И заказчик на определенном этапе ограничивается созданием электронных образов своих 17 млн документов, поскольку расходы на индексирование оказываются слишком велики. Другой случай: перед органом управления градостроительством крупного российского субъекта встала задача наполнить информационную систему сведениями о документах для решения вопросов, в т.ч. судебного характера, связанных с выявлением объектов самостроя. Массив – более 1500 дел, содержащих десятки документов. Требуется провести их сканирование и индексирование более чем по сорока полям: тип документа, номер дела, дата утверждения документа, наименование объекта, категория строительства, тип строительства, номер и дата регистрации в Градостроительном кадастре, территория, заказчик, проектировщик и так далее.

Альтернативой традиционному подходу по созданию электронного информационного ресурса документов градостроительного и земельно-имущественного комплексов является использование автоматизированной системы подборки документов (АСПД). Неструктурированный цифровой массив в виде скан-образов документов загружается в систему, которая осуществляет черновое распознавание без верификации. Затем АСПД по заданным классификаторам и набору регулярных выражений определяет принадлежность документа к определенному типу. Для каждого из типов документов запрограммирован набор реквизитов, необходимых для включения на их основе в оперативные подборки, и из документов на основании той же распознанной подложки извлекаются индексные данные и связываются с документами. Наименования документов не формализованы, и система распознает близкие по значению слова, например «договор», «контракт», «соглашение». Система взаимодействует через программный интерфейс (API) с любым источником, содержащим документы, — СЭД, ECM, файловой системой. Технология обработки информации позволяет определять словоформы, выявлять различные сущности в тексте (производится с использованием словарей и/или правил употребления слов, например с большой вероятностью слово с заглавной буквы, стоящее после аббревиатуры ОАО, является названием организации): наименование организаций, название улиц, номера домов и т. д.

Если бумажным прототипом массива был набор папок (номенклатурных дел), то единицей обработки в АСПД будет дело. При определении типа страницы, система делает логическую «закладку» с привязанными к ней параметрами этого документа и выделенными индексными полями, которая, по сути, является карточкой документа, отмеченного этой «закладкой». Неструктурированный массив в результате обработки системой превращается в формализованный электронный информационный ресурс. В результате запроса, который осуществляется в универсальном поисковом поле, система самостоятельно распознает формат и содержание запроса, проассоциирует их с адресом или наименованием юридического лица, кадастровым или условным номером, датой договора аренды и т.п. На интерфейсе рабочего места специалиста органа управления имуществом помимо строки поиска будет всего три кнопки — «Документы по аренде», «Документы на объект» и «Арендатор». Специалисты смогут оперативно формировать подборки документов по наименованию юридического лица, фрагменту адреса нахождения объекта, условного или кадастрового номера, номера договора аренды. Всякий раз, когда у подразделения администрации появится необходимость наполнить систему новыми документами, они после оцифровки будут также автоматически обрабатываться и окажутся включенными в процессы обеспечения деятельности отделов.

Интерфейс рабочего места сотрудника органа управления градостроительным комплексом будет состоять также из строки поиска и трех кнопок – «Разрешительная документация», «Проектная документация» и «Нормативная документация». Подбор осуществляется соответственно: по кадастровому номеру, почтовому или строительному адресу; по территории, периоду и проектировщику; по периоду, территории, наименованию органа, принявшего нормативный акт.

Помимо типов формализованных документов, массив будет содержать также сопутствующие квитанции об отправке заказных писем, судебные уведомления и т. д. Создавать глобальный справочник, учитывая и эти типы документов, нецелесообразно. Расставленные закладки дают возможность осуществлять прямой доступ к документу, а просмотровщик — «пролистать» не только этот документ, но и близкие к нему.

Таким образом, автоматизированная система подборки документов позволяет решать не только типовые задачи, но и любые новые, являясь очень практичной альтернативной традиционному потоковому вводу.