Типовые решения
Отраслевые решения
О платформе STOR-M
Как ознакомиться с системой
Технические характеристики
Поддержка
Обучение





Отправьте запрос:

Организация:
ФИО:
Должность:
Контактный телефон:
Город:
E-mail:
Откуда о нас узнали:
Доступ к демо-версии:
Вопрос:

Концепция построения электронного архива

Алексей Марков, МО РФ, Москва (095) 195-7534
16.01.1997
Открытые системы, #01/1997
________________________________________
Концепция корпоративного электронного архива
Компоненты корпоративного электронного архива
Техническая реализация - проблема выбора
Технологии индексирования и поиска
Сканеры потокового ввода
Устройства хранения данных
Архитектуры вычислительной системы
Заключение
________________________________________
Сегодня наблюдается небывалый подъем комплексной компьютеризации корпораций и целых отраслей, причем первостепенная роль отводится построению автоматизированных систем документооборота и делопроизводства. Однако с течением времени оказалось, что внедрив мощные системы управления электронными документами, многие корпорации не получили ожидаемого эффекта. В чем причина? Огромное количество - до 80% - оперативной и справочной информации по-прежнему остается на бумажных носителях и складируется в пыльных библиотеках или архивах. Ручная обработка таких бумажных хранилищ становится узким звеном функционирования многих крупных корпораций. Решением может стать использование технологии построения корпоративного электронного архива (КЭА), которая пока еще достаточно нова, а ее реализация требует определенной смелости заказчика и ставит непростые задачи перед системными интеграторами.

Прежде всего надо обратить внимание, на то что речь идет не о традиционной автоматизации каталогов библиотек, а о построении интегрированной системы масштаба отрасли или корпорации, обеспечивающей эффективный доступ и хранение огромных объемов документов в электронном виде. Потребность в такой системе появилась довольно давно и время от времени "подхлестывалась" возросшим интересом к ведомственным и государственным архивам, содержащим уникальные запасы исторической и справочной информации. Дело в том, что архивы, работающие по старинке с бумажными библиотечными каталогами, уже перестали обеспечивать удовлетворительную оперативность, полноту и достоверность выполнения запросов к непомерно разрастающимся фондам документов. Более того, бумажные ценности, как известно, со временем приходят в негодность и безвозвратно исчезают. О масштабах проблемы говорит тот факт, что только сеть государственных архивов России насчитывает более 2 тыс. "мертвых" бумажных хранилищ, содержащих свыше 140 млн. дел. Сумасшедший поток документов и информационных материалов, обращающихся внутри крупных коммерческих структур, придает новый импульс построению архивов электронных документов. И здесь дело касается уже не только компактного, безопасного хранения и быстрого поиска документов, но и вопросов оперативного анализа, цель которого - прогнозирование рыночных коллизий и выявление каких-либо закономерностей.

Все это обусловило актуальность создания новой информационной технологии построения корпоративного электронного архива, способного эффективно обрабатывать массивы данных объемом в десятки терабайт. Причем, технология должна включать как средства создания/наполнения супербанка данных, так и средства обеспечения его должного функционирования и развития. Однако, если потребность в такой технологии назрела уже много лет назад, то техническая возможность ее реализации появилась относительно недавно, как следствие комбинации следующих факторов:
• появились дешевые носители - библиотеки компакт- и магнитооптических дисков;
• резко снизился показатель стоимость/производительность для высокоскоростных вычислительных систем, сетей и устройств;
• получили развитие аппаратно-программные системы, реализующие параллельную обработку запросов;
• повысился уровень интерфейса работы с СУБД;
• появились новые информационные технологии индексирования сверхбольших массивов данных;
• разработаны и развиваются отечественные технологии и программные продукты распознавания и анализа русскоязычных текстов; • наметилось направление внедрения средств искусственного интеллекта, позволяющих моделировать и анализировать большие массивы информации.

Первые системы автоматизации федеральных и промышленных архивов появились за рубежом около пяти лет назад. В России о проектах русифицированных технологий электронного архивирования робко заговорили только в конце 1995 года. Поэтому целесообразно определить основные понятия корпоративного электронного архива.

Концепция корпоративного электронного архива
Формально корпоративный электронный архив можно определить как комплекс аппаратно-программных средств и технологий создания архива (масштаба отрасли или предприятия) документов в электронном виде. Цель создания КЭА состоит в обеспечении оперативного и полноценного доступа ко всем хранящимся и поступающим документам. Для этого требуется решить две основные задачи: ввести массив имеющихся в архиве документов и обеспечить возможность оперативного полнотекстового доступа к электронным документам.

Общую идею можно обрисовать следующим образом. Организуется развертывание высокопроизводительной сети, включающей графические рабочие станции и мощные серверы ввода и обработки информации. Для ввода документов с бумажных носителей низкого качества, используются промышленные сканеры потокового ввода и соответствующие руссифицированные программные средства. Система обеспечивает эффективное индексирование и полнотекстовый поиск неструктурированной информации большого объема. Данные, необходимые для поиска документов, хранятся в высокопроизводительной и отказоустойчивой системе памяти, а графические образы документов - в виде изображений на носителях, характеризуемых длительным временем хранения и дешевизной. Перечислим основные функции КЭА:
• сканирование,
• распознавание и корректирование ошибок,
• создание и миграция электронных документов и образов,
• индексирование документов,
• оперативный поиск и отображение документов,
• анализ документов,
• управление функционированием системы.

Для реализации данных функций в КЭА должны быть подсистемы ввода, хранения, индексирования, поиска и отображения информации, анализа, управления потоками, администрирования и научно-технического сопровождения.

Определение КЭА лежит на стыке понятий современных автоматизированных систем управления документооборотом (СУД) и информационных хранилищ данных - DataWarehouse (ИХД). Специфика внедрения системы электронного архивирования состоит в том, что, прежде всего необходимо ввести в базу данных системы полный объем документов. Так как это чрезвычайно длительный и трудоемкий процесс, то он требует максимальной автоматизации - отстранения оператора от любого участия в процессе ввода, распознавания, корректировки и индексирования документов. С этим связана вторая специфическая черта КЭА - обеспечение полнотекстового поиска. Построение и поддержка системы атрибутивного поиска - характерного для систем управления документооборотом оказывается неприемлемым вследствие временных и стоимостных ограничений.

Приведем следующий расчет. Допустим, бумажный архив насчитывает 50 млн. документов. На проверку одного распознанного документа, классификацию-рубрикацию, ввод атрибутов оператор среднестатистически тратит две минуты. Следовательно, для ввода всех документов в режиме стандартной рабочей недели потребуется 1112 лет. С другой стороны, при автоматическом вводе документов, основным узким звеном системы будет производительность сканеров и мощность сервера, выполняющего распознавание и индексирование. С учетом оптимизации потоков подсистемы ввода, можно ожидать, что аналогичный объем будет полностью введен за 5-15 лет - т. е. еще при жизни оператора.

Что касается ИХД, то в КЭА также обрабатываются объемы данных порядка нескольких терабайт, структура базы данных системы ориентирована на объекты, а не на процессы, архивные данные инвариантны - их истинность не зависит от времени - и стабильны - не удаляются и не модифицируются. Отличие состоит в том, что в ИХД данные имеют интегральный вид - получены из множества разнотипных СУБД и файловых систем. В КЭА, как правило, утверждается единая технология ввода документов. Однако следует оговориться, на практике ряд архивов уже имеет определенные наработки либо в организации документооборота, либо в автоматизации каталогов, описей и специфичных картотек. Естественно, на первом этапе имеющиеся базы данных интегрируются в электронный архив.
Другой отличительной и важной особенностью КЭА является то, что он включает как средства оперативного поиска информации (On-line Time Processing - OLTP), так и средства оперативного анализа информации (On-line Analyze Processing - OLAP), которые являются основой ИХД.

Компоненты корпоративного электронного архива
Теперь, рассмотрев основные функции КЭА, кратко определим его ключевые программно-аппаратные компоненты. Сначала перечислим основные аппаратные средства:
• потоковые сканеры, обеспечивающие надежный высокопроизводительный ввод бумажных материалов низкого качества (40 стр./мин и более);
• высокопроизводительные масштабируемые серверы, обеспечивающие параллельную обработку запросов;
• высокопроизводительная (100 Мбит/c и более) вычислительная сеть, ориентированная на многопотоковый ввод и обработку графических документов;
• RAID-массивы, обеспечивающие высокопроизводительный и сверхнадежный доступ к поисковым данным системы;
• автоматические библиотеки компакт- или магнитооптических дисков, обеспечивающих долговременное хранение огромных массивов информации,
• средства переноса данных на компакт- или магнитооптические диски;
• средства резервного копирования на магнитную ленту;
• рабочие места - клиенты, ориентированные на обработку графической информации;
• рабочие места разработчиков конкретных приложений;
• системы обеспечения безаварийного питания;
• принтеры и модемы.
Системные программные средства включают:
• операционную сетевую среду (обычно Unix-сервер, NT - клиент), ориентированную на мультипотоковую обработку в сети и сертифицированную по безопасности;
• СУБД, ориентированную на обработку сверхбольших массивов данных;
• средства отображения и обработки данных.
И наконец, самое важное - специальные программные средства:
• средства распознавания русскоязычных текстов;
• средства разработки и оптимизации запросов;
• средства полнотекстового индексирования и поиска информации;
• средства анализа информации.

Техническая реализация - проблема выбора
При всем многообразии программного обеспечения, сегодня не существует каких-либо продуктов СУД и ИХД, позволяющих обеспечить все основные функции электронного документооборота и архивирования для работы со сверхбольшими объемами документов. С другой стороны, большинство компонентов КЭА, как технических, так и программных, являются уникальными и настраиваемыми образцами. Поэтому, при проектировании КЭА возникают, как минимум, две взаимосвязанные проблемы: оценка и выбор компонентов; интегрирование технологий, программных продуктов и технических средств.
Выбор некоторых компонентов, например, высокопроизводительной сети, конкретных моделей серверов или RAID-массива совпадает с современными технологическими решениями построения традиционных автоматизированных систем сбора, хранения и обработки информации. В то же время, ряд компонентов имеет уникальную ориентацию именно на электронное архивирование. Здесь мы будем рассматривать только проблему выбора специфических для КЭА компонентов.

Технологии индексирования и поиска
Ядром корпоративного электронного архива по праву можно считать технологии индексирования и поиска. Сегодня наметились несколько направлений построения электронных архивов в зависимости от используемых в них методов поиска.
Первое направление, именуемое также корпоративным электронным архивом, относится к классу традиционных информационно-поисковых систем, основанных на атрибутном поиске структурированных данных. В качестве примеров можно привести системы построения небольших электронных архивов на базе программных продуктов типа DOCS Open (PC DOCS), XDOC (Rank Xerox), SoftSolution (Novell), PaperWise (PaperWise) и др. Строго говоря, данное направление не является технологией корпоративного электронного архивирования как таковой. Проведенные расчеты по вводу полного массива документов показывают, что даже небольшая заминка в несколько секунд при вводе документов выливается в дополнительные несколько лет, необходимых для ввода полного объема документов. Визуальный контроль и полуавтоматизированное заполнение атрибутов практически не реализуемы в основной массе документов крупного архива.

Альтернативное направление электронного архивирования базируется на принципе полнотекстового индексирования неструктурированных данных и включает два вида индексирования:
• контекстно-независимое индексирование, не зависящее от естественного языка по причине бинарной или словарной индексации;
• контекстно-зависимое индексирование, позволяющее оптимизировать индексацию и поиск с учетом специфики морфологии и семантики естественного языка.

Известно несколько методов контекстно-независимого индексирования. Наиболее распространенный - индексация на базе инвертированной матрицы, где словам или нормализованным словоформам ставятся в соответствие адреса документов. Здесь обычно используются стоп-словарь неиндексируемых слов и словарь синонимов. Другой метод - бинарное индексирование, например, на базе теории нейронных сетей. При использовании теории распознавания образов, этот метод позволяет достичь возможности нечеткого поиска подобных, с точки зрения бинарных единиц, слов или, иначе, "поиска с ошибками". Нечеткий поиск предоставляет огромные возможности для обнаружения слов, содержащих искажения или ошибки. Например: текст после распознавания, переведенные на русский язык названия фирм или иностранные фамилии. Однако при нечетком поиске пользователь сталкивается с проблемой отсеивания шума - документов, где встретились подобные по синтаксису, но не по смыслу слова.

В целом, технология полнотекстового электронного архива представлена двумя магистральными направлениями:
• технология электронного архивирования, использующая возможности современных промышленных СУБД;
• технология, основанная на специализированных системах индексирования и поиска.
Первый подход базируется на использовании средств известных SQL-СУБД, типа: Oracle, Informix, Sybase и других, способных поддерживать сверхбольшие базы данных. Обычно эти СУБД имеют средства полнотекстовой индексации типа инвертированной матрицы. По этой причине, объем индекса может составлять 30-350% от общего объема базы. Процентный разброс зависит от степени нормализации индексируемых слов текста - приведения к начальной форме существительных, прилагательных и глаголов. К достоинству данного метода можно отнести следующее:
• помимо функций индексирования в СУБД присутствует множество полезных и необходимых функциональных, сервисных и технологических функций поддержки качественной архивной деятельности и документооборота. Эти средства существенно упрощают задачи интегрирования средств и функций, защиты информации и т.п.;
• СУБД имеют широкое распространение, что исключает необходимость освоения новых продуктов;
• данные средства прочили многолетнюю апробацию в рамках приложений СУБД, проверены на практике и, несомненно, будут поддерживаться и развиваться еще достаточно долго.

К основным недостаткам следует отнести то, что СУБД, особенно реляционного типа, изначально не ориентированы на интенсивную обработку сверхбольшого объема информации. Поэтому ряд функций по полнотекстовому поиску и построению запросов, скорости поиска реализуется менее эффектно и изящно, чем в специализированных пакетах. Например, большинство СУБД пока не имеют средств поддержки нечеткого поиска. В результате, необходим дополнительный этап верификации введенного текста с целью исправления возможных ошибок сканирования и распознавания. Однако сейчас возникла новая тенденция - выпускаются новые модули или версии программных продуктов, ориентированных на обработку сверхбольших объемов традиционных данных и данных мультимедиа.
Примерами реализации указанного направления являются программные средства индексирования и поиска русскоязычных текстов, разработанные фирмами LVS и cognitive Technologies. Сегодня соответствующие средства работают в рамках СУБД Oracle и OB2.

Второй подход, включающий полнотекстовое индексирование и поиск, основан на использовании дополнительных специализированных пакетов полнотекстовой индексации, в частности на базе нейронных сетей. Многие аналитики считают, что традиционные системы не годятся для решения задач КЭА, где требуются исключительно мощные процессоры данных, оптимизированные по критерию скорости доступа. Такие системы используют бинарную индексацию и реализуют нечеткий поиск. Перечислим их достоинства:
• системы имеют более качественные возможности по индексированию, поиску и по анализу, в частности, они реализуют нечеткий поиск, позволяющий отказаться от проблемы исправления ошибок после распознавания;
• системы характеризуются исключительно высокой скоростью доступа;
• объем индекса не превышает 30% объема текстовых данных;
• системы, кроме неструктурируемых данных, обычно, поддерживают различные мультимедиа данные.

Какие здесь возникают сопутствующие проблемы? Во-первых, результаты нечеткого поиска напрямую зависят от качества задания запроса, и пользователи сталкиваются с проблемой шума - получения нерелевантных документов. Во-вторых, указанные системы рассчитаны на мощные параллельные вычислительные системы и пока не очень распространены на платформе Intel. Но главный недостаток заключается в том, что это системы исключительно индексирования и поиска - в них существенно ограничены функции управления документами. На разработчиков возлагаются очень непростые задачи создания собственных технологических и сервисных функций, интегрирования технологий и программно-аппаратных средств и т. п.

Застрельщиком представленного направления является американская компания Excalibur Technologies, имеющая сегодня представительства по всему миру, включая и Россию. Данное направление на российском, да и на европейском, рынке достаточно новое, например, разрешение на использование некоторых программных модулей на территории России было получено только в 1996 г. Фирма предлагает два программных продукта: Excalibur EFS и RetrievalWare. Первый - это "коробочный" продукт, он позволяет выполнять полнотекстовую индексацию и поиск информации, хранимой в файловых системах или СУБД. Второй продукт - мощное инструментальное средство создания систем полнотекстового поиска на базе теории нейронных сетей. RetrievalWare включает два компонента или программные библиотеки: текстовый сервер и сервер изображений. Библиотеки могут быть подключены к базовому ядру информационной системы, например, к СУБД Sybase.

Сервер изображений может эффективно использоваться для поиска трехмерных изображений, сигналов, фотографий, отпечатков пальцев, устной речи и т.п. Текстовый сервер здесь существенно перспективнее, чем Excalibur EFS - он включает не просто механизм поиска неструктурируемой информации, но и семантический анализатор. Данный продукт позволяет создавать семантическую сеть между понятиями языка, а значит, - существенно расширять возможности поиска. Например, английский вариант семантической сети включает более 0.5 млн. слов и 1.5 млн. связей между ними. Сегодня имеются также соответствующие разработки в области русификации семантического сервера. RetrievalWare также включает компонент Web, позволяющий работать в среде Internet или intranet.

Несмотря на различие в указанных подходах к индексированию и поиску, возможна их комбинация при реализации конкретного электронного архива.

Сканеры потокового ввода
Одним из самых узких звеньев технологии электронного архивирования являются сканеры, обеспечивающие безотказный высокопроизводительный массовый ввод документов на бумажных носителях низкого качества: слипшихся, выцветших, порванных, разных размеров и плотности, плохо пропечатанных, испачканных и т.д. Практика показала, что офисные планшетные сканеры с автоподатчиками совершенно непригодны для решения таких задач, а ведь именно документы данного качества имеются сегодня в большинстве отечественных архивах.

Возможным вариантом решения является использование специализированных промышленных сканеров, ориентированных на потоковый ввод архивных документов. Отличительной особенностью таких сканеров является ротационный механизм перемещения документов, позволяющий вводить данные с бумажных носителей плохого качества. На российском рынке наиболее известны три типа промышленных сканеров: Bell&Howell, Fujitsu и Kodak (таблица 1). При их выборе основными критериями являются производительность, долговечность, стоимость, размер вводимых документов, возможность двустороннего ввода, наличие средств, повышающих качество распознавания, наличие средств контроля. Наиболее эффективными с точки зрения массового ввода пока являются сканеры Kodak, которые имеют надежные устройства подачи бумаги, включают процессор распознавания текста, систему компьютерной диагностики и контроля ввода, снабжены развитыми программными средствами распознавания и управления архивированием, имеют естественную технологическую поддержку системы архивирования (запись на компакт-диски, микрофильмирование, стыковка с автоматическими библиотеками компакт-дисков и др.). Здесь следует отметить, что функция микрофильмирования в ряде электронных архивов остается в эксплуатации - электронная копия документа в России, в отличие от микрофильма, пока не имеет юридической силы. Основным недостатком сканеров фирмы Kodak является их высокая стоимость: цена полной поставки с программными средствами и офисными стойками достигает несколько сотен тыс. долларов.

Таблица 1.
Сканеры потокового ввода.
Тип сканера Скорость сканирования (лист/мин при А4/200 dpi) Разрешение (dpi) Формат документа, тип сканирования
Bell&Howell 2135 36 200 А4, односторонний
Bell&Howell 2138A 72 200 А4, односторонний
Bell&Howell 6338 42 200-300 А3, двусторонний
Fujitsu 3099G 55 200-400 А3, двусторонний
KODAK IMAGELINK 500S 144 66-300 A3, односторонний
KODAK IMAGELINK 923D 144 67-300 A3,двусторонний
KODAK IMAGELINK 990 120 67-200 A3, двусторонний

Сканеры Fujitsu и Bell&Howell уступают сканеру Kodak в первую очередь в сервисных и технологических функциях, но успешно справляются с обеспечением массового ввода основных архивных документов. Сканеры Fujitsu, в отличие от Kodak и Bell&Howell, выполнены на пластмассовой основе, что заранее определяет меньшую долговечность и более низкий уровень надежности системы сканирования. Поэтому с учетом этих факторов системы компромиссным вариантом базового потокового сканера системы ввода может быть сканер типа Bell&Howell.

Устройства хранения данных
Как уже отмечалось, все данные в системе могут находиться в двух видах: поисковый образ и образ собственно документа. Из-за высоких требований к скорости доступа к поисковому образу документа и его целостности, он должен храниться в высокоскоростных отказоустойчивых системах хранения, например RAID-массивах.

Для хранения образа документов использование магнитных дисковых носителей не представляется возможным вследствие их высокой стоимости. Наиболее подходящими носителями могут быть магнитооптические, фазоинверсные (PD/CD), компакт- (CD-R) и WORM-диски (таблица 2). Для автоматизации поиска информации, размещенной на этих дисках, ее извлечения и работе собственно с дисками используются автоматические библиотеки или, как их еще называют, оптические дисковые автоматы (JukeBox). Сегодня известны библиотеки, имеющие до 60-ти дисководов и до 3 тыс. гнезд для дисков, выбираемых механизированным способом. Автоматические библиотеки могут быть многофункциональными, например, одновременно поддерживать магнитооптические, фазоинверсные и компакт-диски.

Таблица 2.
Оптические и магнитооптические накопители.
Тип диска Емкость Число циклов перезаписи
5.25"-магнитооптические диски 650 Мб, 1.3 Гб, 2.6 Гб 1млн.
PD/CD-диски фазоинверсной записи 650 Мб 1тыс.
WORM-диски 1-10 Гб однократно
Компакт-диски CD-R 650 Мб однократно

Преимущество магнитооптических дисков перед компакт-дисками основана на том, что первые позволяют перезаписывать информацию. Большинство технологических решений электронного архивирования поддерживает технологию миграции данных именно на магнитооптические диски, которые более устойчивы к ошибкам записи, имеют более высокую скорость чтения, однако уступают компакт-дискам в гарантийном сроке хранения информации и стоимости. Если магнитооптические диски, в лучшем случае, декларируют сохранность информации в течение 50 лет, то гарантия на компакт-диски может составлять 100 лет и более. Что касается стоимости систем хранения на базе магнитооптических и компакт-дисков, то она может отличаться в 4 раза. С учетом того, что большинство архивных документов, практически, не подлежат модификации и удалению, библиотеки на компакт-дисках могут быть предпочтительнее. Кроме того, компакт-диски удобнее в работе: их автономное чтение можно осуществлять на любом ПК, комплектуемом CD-ROM-плеером.

Не вызывает сомнения, что вся информация в системе должна иметь резервные копии. Для графических образов сохранность информации может быть обеспечена созданием дублированных магнитооптических или компакт-дисков. Для хранения меняющейся поисковой информации в качестве сохранных накопителей удобнее использовать системы резервного копирования на магнитных лентах. Применяемые в персональных системах технологии (DC2000/Travan, DC6000, DAT) непригодны из-за ограничений в объеме. Возможным вариантом могут стать DLT-стримеры, восьмимиллиметровые библиотеки Exabyte (Mammoth) или специализированные катушечные системы. Наиболее распространены DLT-стримеры.

Архитектуры вычислительной системы
Не останавливаясь на выборе конкретного сервера, отметим лишь особенности архитектуры вычислительной системы. Исследования показывают, что для поддержки системы класса КЭА и ИХД сегодня пригодны только мощные масштабируемые RISC-платформы, ориентированные на параллельные вычисления.

Важным критерием при выборе перспективного сервера является поддержка 64-разрядности, необходимая при вводе и обработке больших объемов мультимедийных данных. Сегодня эту возможность предоставляют только компании DEC, SGI, Oracle и Sybase. В ближайшем будущем ожидается, что к ним присоединятся HP и SUN Microsystems.

Заключение
Построение электронного архива - дело сугубо индивидуальное. И если архиву фото- и кинематографии, скажем, дополнительно требуются функции обработки видеоизображений и аудиосигналов, то архиву МВД - поиск отпечатков пальцев и фотографий. Каждая организация уникальна и требует учета специфики работы, степени ее автоматизации, имеющегося парка технических средств, квалификации специалистов и, наконец, платежеспособности.

Каковы же инженерно-технические трудности внедрения технологии электронного архивирования? Это решение двух крупных задач: наполнение электронного архива и обеспечение эффективного поиска. Первая захватывает ряд инженерно-технических проблем, решение которых может потребовать существенных временных затрат. Этим обусловлена важность эффективной организации процесса разработки, включающей оптимальное планирование процессов, анализ и синтез наработанных технологий, создание системы управления качеством и др. Негибкость экономической деятельности в большинстве госструктур определяет ограничения на поэтапность и наращиваемость государственных электронных архивов. Это повышает требования к системному и детальному проектированию, созданию опытного образца, организации испытаний и тестирования. При этом следует помнить, что систему нельзя считать законченной, пока не будет введен основной накопленный объем документов.

Несмотря на то, что массовый ввод - важнейшая и наиболее трудоемкая задача КЭА, - он не является самоцелью. Целевая задача КЭА - обеспечение эффективного доступа к имеющимся данным с применением интеллектуальных средств. На этом этапе наиболее актуальными являются вопросы оптимизации запросов по критерию скорости выполнения.

Очевидно, что рассматриваемая технология весьма дорого стоит и "по плечу" только крупным организациям. Поэтому, учитывая определенные затраты на создание системы, перечислим основные достоинства электронного архива. Во-первых, повышение полноты и оперативности отработки запросов к архиву. Особенно это эффективно при выполнении нестандартного нерегламентированного запроса. Ответ, которого раньше ждали месяцами, причем без всякой уверенности, что он окажется положительным, теперь можно получить за секунды и в совершенно ином качестве. Во-вторых, компактность и надежность хранения. Можно отказаться от дорогостоящих хранилищ документов, сокращать издержки и занимаемые площади. Сужение круга допущенных лиц, контроль и учет доступа к системе позволит повысить не только сохранность, но и безопасность конфиденциальной информации. Хранение документов в электронном виде приводит к тому, что ряд архивных функций, таких как ксерокопирование, микрофильмирование, ведение автоматизированных картотек, будут сокращены за ненадобностью.
В-третьих, создается возможность проведения оперативного анализа имеющейся информации, что, повысит обоснованность решений, принимаемых высшим и средним звеньями руководителей, которые полагаются пока только на свой опыт и интуицию.
В этой статье речь не шла о OCR-продуктах и системах оперативного анализа информации, однако описанию систем распознавания, предлагаемых рядом отечественных компаний, уделяется сегодня достаточно много внимания в прессе. Системы оперативного анализа еще достаточно новы и пока неясно, как их эффективнее использовать для работы с большими архивами документов. По существу, в нашей стране пока нет каких-либо прецедентов реализации таких систем. Кроме того, область эта достаточно специфична - что анализировать, какие интеллектуальные средства внедрять или разрабатывать в немалой степени определяется особенностями конкретного архива.

http://www.osp.ru