| | | Информационно-поисковая система. Разработчики: Городилов А.В. (foundersw@mail.ru) Крагин А.Н. (eagle@demo.ru)
Система разработана в рамках дипломного проекта. Кафедра ИПОВС, МИЭТ. В ближайшее время будут выложены подробные описания системы, а также исходный код модулей.
Обзор существующих технологий построения и организации электронных архивов.
В данном разделе я постарался выделить общее в технологиях построения и организации электронных архивов.
Технология построения электронного архива.
Процесс построения электронного архива включает: · сканирование документов и создание их электронных образов; · организацию надёжного и защищённого хранилища образов документов; · индексирование документов; · распознавание текста и коррекцию ошибок; · создание системы поиска и отображение документов; · создание системы управления электронным архивом;
Существует несколько типовых решений проблемы создания Электронного архива документов.
“Минимальное решение”
Это самое дешёвое решение для организаций, стремящихся упорядочить доступ к архивной информации, но не предполагающих активно использовать электронные образы документов.
При таком решении создаётся электронная картотека архива - база данных с полноценным формализованным описанием документов по нескольким поисковым полям (обычно 5-10) и точным физическим адресом (раздел, шкаф, стеллаж) расположения бумажного документа.
Зная характеристики документа, архивариус запрашивает систему о его местонахождении в хранилище, а, получив физический адрес, легко находит и сам документ. Такая электронная картотека во много раз облегчает структуризацию бумажного архива, упрощает поиск документов и учёт их использования.
“Стандартное решение”
Более распространённое и функциональное решение - электронная картотека, дополненная массивом графических образов документов (отсканированных изображений).
Такой архив позволяет полностью отказаться от использования в повседневном обороте оригиналов документов, которые могут в этом случае храниться удалённо, на площадях с низкой стоимостью и, при необходимости, под надёжной охраной. Стандартный программно-аппаратный комплекс архива гарантирует, что в результате поиска по электронной картотеке сотрудник организации получит в своё распоряжение точный образ нужного документа, который можно использовать для просмотра, передачи по сети или печати бумажной копии. При этом автоматизированная система управления доступом обеспечит учёт и авторизацию всех обращений, а также надёжную защиту от несанкционированного использования документов.
Стандартное решение позволяет организовать единое управление архивом даже для территориально распределённой организации и обеспечить полноценный контроль за всеми её документами из единого центра.
“Максимальное решение”
Наиболее эффективный электронный архив, в котором электронная картотека и массив графических образов дополняются файлами, содержащими тексты всех документов архива.
Тексты документов создаются набором вручную или путем автоматического распознавания и верификации их графических образов. Поиск в таком архиве может быть организован как по поисковым полям (картотеке), так и по содержанию самих документов (контекстный поиск). Найденные документы можно просматривать, пересылать и распечатывать как в виде их исходных образов, так и в виде текстовых файлов, доступных для редактирования стандартными текстовыми редакторами.
Выбор “Решения”
Для создания Электронного архива Управления было выбрано наиболее полное и функциональное решение. Проанализировав Максимальное решение в контексте технологии построения электронного архива, было принято решение о создании программного комплекса для решения следующих задач:
· организация надёжного и защищённого хранилища документов · индексирование документов · создание системы поиска и отображение документов · создание системы управления электронным архивом
Концепция функционирования ИПС.
В концепции функционирования Электронного архива ИПС я выделил следующие основные информационные и функциональные сущности:
контрольно-регистрационная карточка документа; файл документа; сервер контекстного поиска. приложение документа
Контрольно-регистрационная карточка документа содержит учетно-регистрационную информацию, различные признаки документа и его атрибуты. Кроме того, карточка документа содержит ряд признаков, по которым можно провести однозначную идентификацию документа, его место хранения, параметры привязки отдельного документа в комплекте документации в целом и т. п.
В файле документа представлено собственно содержание документа в электронном виде.
Приложение документа служит программным средством для работы с документом.
Таким образом, можно выделить основные программно-аппаратные компоненты системы ИПС:
Ядро системы управления документами (СУД); Сервер БД архивной системы (Картотека); Файловый сервер документов(Хранилище документов); Сервер приложений (Поисковый сервер); Сеть клиентских рабочих мест. Ядро системы управления документами.
Ядро системы управления документами или другими словами, бизнес-логика функционирования системы, встроено в клиентское приложение. Вся работа по авторизации пользователей ИПС, аутентификации пользователей ИПС, работе с документами, администрированию и настройке системы проводится с помощью клиентского приложения ИПС. Именно ядро отвечает за правильность и целостность хранения данных в БД и на файловом сервере документов.
Сервер БД архивной системы (Картотека). Сервер БД архивной системы (Картотека). Роль сервера БД в системе играет SQL-сервер Borland InterBase6. С версии 6.0 этот продукт является совершенно бесплатным и распространяется с открытыми исходными текстами. Файловый сервер документов(Хранилище документов). Файловый сервер документов
(Хранилище документов) – это файловый сервер с большим дисковым пространством под хранение текстов документов, а также их txt-образов и индекса документов. Взаимодействие Хранилища документов с ядром системы осуществляется посредством протокола обмена файлами(FTP).
Сервер приложений (Поисковый сервер). Полноценный поиск по документам включает в себя две составляющие:
1) Поиск по реквизитам 2) Поиск по содержимому документа
Если с первой задачей можно успешно справится средствами языка структурированных запросов (SQL) к базе данных, то в задаче поиска по контексту без полнотекстовой индексации документов не обойтись. Учитывая то, что в функциональности Электронного архива первое место отводится мощности, скорости и простоте контекстного поиска было решено для полнотекстовой индексацией в ИПС применить библиотеку ABBYY RETRIEVAL & MORPHOLOGY 4.0 ENGINE. Эта библиотека предоставляет разработчику Retrieval API в реализацию которого входят следующий функции:
1) Полнотекстовая индексация. Инструментарий позволяет создать эффективный полнотекстовый индекс многоязычных документов. Индекс хранит информацию о словах и их местоположении в информационном хранилище (файловых серверах, WEB-серверах или базах данных). Для того, чтобы создать наиболее компактный индекс, который в дальнейшем обеспечит наибольшую скорость поиска, система использует знание морфологии, лемматизацию и словари стоп-слов. В результате использования лемматизации (нахождения начальной формы слова по любой его словоформе) система включает в индекс не все 4 000 000 словоформ русского языка, а только 150 000 его словооснов. Словари стоп-слов содержат набор незначимых для поиска символов языка (предлоги, союзы), которые не включаются в индекс и делают его короче. В общем случае скорость индексирования и относительного размера индекса зависят от большого числа параметров - конфигурации компьютера, структуры исходной информационной базы, формата и языков документов и т.д. Ниже приведена приблизительная оценка характеристик системы при индексировании одноязычного «гладкого текста» в формате TXT: Скорость индексирования 20мб\мин Отношение размера индекса к информационному источнику 40%.
2) Полнотекстовый поиск. Функции полнотекстового поиска позволяют, указав в запросе любую форму нужного слова, найти в проиндексированных документах все вхождения этого слова как в заданной, так и в остальных его формах. ARM Engine позволяет осуществлять как простой, так и расширенный поиск. При простом поиске запрос состоит из одного или нескольких слов, а также логических операторов (AND, OR, NOT). Так как индекс содержит информацию о координатах каждого слова в проиндексированных документах, возможно также задать дистанцию между искомыми словами и их относительную позицию. Запрос для расширенного поиска представляет собой строку на специальном «языке запросов», что позволяет более точно задать параметры поиска, используя произвольную комбинацию логических операторов. В обоих случаях, благодаря использованию компактного индекса, Булевой логики, словарей словоформ и стоп-слов, поиск даже в многоязычных документах осуществляется настолько эффективно, что скорость поиска составляет доли секунды и практически сравнима со скоростью реакции пользователя.
3) Нечеткий поиск. ARM Engine позволяет осуществлять нечеткий поиск, т.е. находить слова, которые отличаются от исходного несколькими символами. Такая возможность полезна в случае, если документы содержат слова с ошибками, пользователь не уверен в правильности написания слов или хочет найти похожие слова.
Проанализировав возможности этой библиотеки, а также, учитывая возможность довольно безболезненной интеграции библиотеки в ИПС, нами было принято решение об использовании ее в качестве Полнотекстового Индексирующего Механизма.
Лицензионная политика компании ABBYY позволяет разработчикам программного обеспечения (потенциальным покупателям их продукта) получить бесплатную полнофункциональную версию ARM Engine для тестирования и разработки механизмов взаимодействия.
Сеть клиентских рабочих мест
Сеть клиентских рабочих мест состоит из клиентских приложений ИПС. Для взаимодействия с сервером БД (Хранилищем документов) клиентское приложение использует InterBase API. Для взаимодействия с Поисковым сервером клиентское приложение использует Retrieval API. Взаимодействие с пользователем осуществляется с помощью стандартных графических средств MS Windows – Windows GUI.
Техническое обеспечение ИПС.
Для функционирования системы ИПС “НПДок” необходимо следующие техническое обеспечение:
1) Локальная вычислительная сеть под управлением домена MS Windows. Обязательное присутствие домена объясняется использованием ARM Engine технологии DCOM (Distributed Component Object Model). DCOM – это программная архитектура, разработанная компанией Microsoft для распределения приложений между несколькими компьютерами в сети. Программный компонент на одной из машин может использовать DCOM для передачи сообщения (его называют удаленным вызовом процедуры) к компоненту на другой машине. DCOM автоматически устанавливает соединение, передает сообщение и возвращает ответ удаленного компонента.
2) Сервер InterBase 6. Системные требования для сервера InterBase6: Операционная система: MS Windows 9x\NT\2000 Компьютер на базе Intel Pentium II Оперативная память: не менее 128 мб Свободное дисковое пространство: на начальном этапе достаточно 50 мб, но с ростом базы потребуется дополнительное дисковое пространство
3) Сервер ABBYY FTRE. Библиотека полнотекстовой индексации устанавливается сервисом в систему MS Windows NT 4.0/5.0/5.1. Системные требования Поискового сервера: Операционная система: MS Windows NT\2000 Компьютер на базе Intel Pentium II Оперативная память: не менее 128 мб Свободное дисковое пространство: на начальном этапе достаточно 500 мб, но с ростом базы потребуется дополнительное дисковое пространство
4) Клиентские места системы ИПС. Системные требования для компьютеров, обеспечивающих работу Клиента ИПС: Операционная система: MS Windows 9x\NT\2000 Компьютер на базе Intel Pentium 200Mhz Оперативная память: 32 мб Свободное дисковое пространство: 3 мб
| | | |