Репортажи
Excalibur, aka Excoliburrr
Антон Сергеев
27 марта в Российской академии государственной службы фирма "МетаТехнология" совместно с американской компанией Excalibur Technologies провела презентацию новых программных продуктов по управлению электронными документами и неструктурированной информацией различной природы.
Здесь были представлены новые версии программных продуктов Excalibur EPS – системы архивации и управления электронными документами с возможностью высокоскоростного поиска по полному тексту, и Finereader 3.0 Professional – системы промышленного ввода документов(последняя является разработкой фирмы "БИТ", партнера "МетаТехнологтт"). Работа продуктов была про-стрирована на нетривиальных примерах.
Презентация началась с выступления президента фирмы "МетаТехнология" Марии Каменновой, посвященного системам управления электронными документами в России, большая его часть, однако, была посвящена деятельности и достижениям самой "МетаТехнологии" (за период с 1994 по 1996 год фирма не покидала top 100 лучших российских компьютерных фирм и, кроме того, получила звание Staffware Top Quality Partner 95). Затем перед деловой общественностью выступил исполнительный директор европейского представительства Fucalibur Technologies International ан Кэн (Kamran Khan), который рассказал о самой компании и ее планах на будущее. При этом г-н Кэн поведал собравшимся, что Джеймс Дау (James Dow III) основатель и научный директор фирмы Excalibur Technologies, намеревавшийся выступить на презентации с докладом о собственно технологии адаптивного распознавания образов APRP (Adaptive Pattern Recognition Processing), из-за внезапно настигшей его болезни приехать не сможет.
Технология APRP, на базе которой создавались новые версии пакета Excalibur EPS (Electronic Filing System) и RetnevalWare/lmage Server, основана на явлении самоорганизации биологических систем.
При ее разработке основным предметом изучения была лягушка, а точнее процесс получения и запоминания лягушкой информации об окружающем мире. В результате этих исследований были выявлены аналогии между нейронной сетью биологического организма и компьютерными нейронными сетями.
В соответствии с APRP все объекты, будь то текст, звук или графическое изображение, переводятся в бинарное (двоичное) представление, после чего анализируются с применением алгоритмов так называемого "нечеткого поиска" вводится числовой параметр, обозначающий, в какой степени найденный объект (слово, картинка или фрагмент звукового файла) соответствует запросу. Например, если на вход системы распознавания подается фотография человека, а в архиве изображений есть его же фото, но где он снят в очках и/или с чуть повернутой головой, то система извлечет это фото из архива как наиболее соответствующее.
Так же обстоит дело и с распознаванием текста Например, как вы думаете, что закодировано в кажущемся сущей бессмыслицей слове "MEOJULROMIET". А если я подскажу, что это пьеса Шекспира? Уверен после этого вы очень быстро найдете правильный ответ. И программа распознавания всего-навсего пытается эмулировать процессы, происходящие внутри вашего головного мозга. Поэтому для поиска в информационном архиве упоминания, скажем о компании Excalibur Technologies позволительно будет ввести как Excalibur так и Excoliburrr.
Наиболее захватывающей частью презентации была демонстрация работы пакетов Excalibur EPS и RetnevalWare/lmage Server. Специалист из "МетаТехнологии" показал собравшимся, как при помощи.
Excalibur EPS, за одну-две секунды, используя алгоритмы нечеткого поиска, можно в 200-мегабайтном архиве по сильно искаженному тексту (смотри пример выше) найти необходимый фрагмент или ссылку.
При демонстрации возможностей Image Server был показан пример с фотографиями, уже описанный ранее. Помимо того, огромный интерес собравшихся привлекло приложение, идентифицирующее отпечаток человеческого пальца(весь процесс можно было наблюдать на экране монитора) по исходному отпечатку алгоритм обработки создавал цветовую карту, на которой значение цвета в каждой точке отпечатка зависело (как разъяснил г-н Кэн) от угла наклона линии в этой точке, на основе границ между областями разного цвета создавалась нейронная сеть, разложенный в нее отпечаток анализировался, и в архиве подбирался соответствующий ему эквивалент. В отличие от примера с распознаванием фотографий, где на выходе система выдавала набор из шести-семи снимков в порядке уменьшения соответствия, приложение, распознающее отпечатки пальцев, извлекало из архива лишь один отпечаток с наивысшим приоритетом.
К сожалению, собравшимся не удалось проверить работу системы распознавания текстовых документов – факсов, некачественных ксерокопий и т д , – так как в самый ответственный момент, перед сканированием, система работать отказалась. Тем не менее представители фирм поспешили заверить аудиторию что это была лишь досадная неполадка.