Архив 1995-1996 года

1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /172, 1996 г./ | Бонус | Поиск

Тема номера

Мечты сбываются

Владимир Алимов

© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

Распознавание символов по их графическому представлению -одна из самых старых и традиционных задач искусственного интеллекта. Еще в 60-70-е годы были написаны десятки диссертаций и предложены сотни методов решения этой проблемы. Достаточно сказать, что изданная в 1969 году в Киеве библиография работ по OCR включала 245 названий! Любопытно также, что один из первых методов распознавания символов, предложенный американским ученым К. Фу, был именно структурным. В то же время методы распознавания, основанные на изучении набора признаков, были и остаются очень популярными.

Действительно, каждый искусно подобранный признак резко сужает количество возможных букв. Например, достаточно знать, что левый верхний угол буквы скруглен, и из тридцати пяти букв русского алфавита остаются лишь девять кандидатов (абезосфэя). Букв, содержащих две «ноги», (вертикальные отрезки на всю высоту буквы) всего десять (ийлмнпцшщы). Таким образом, задав несколько простых вопросов, можно по ответам на них однозначно определить букву.

Главным недостатком распознавания по признакам является его незащищенность от образований, вообще не являющихся буквами, – почему бы им не иметь присущих буквам признаков? А такое часто случается. В результате чего «склейка» из нескольких букв разрезается неудачно.

Все методы имеют недостатки, и, разумеется, лучше применять их комбинации. Теоретически это просто. Однако только в конце восьмидесятых годов, когда сканеры и компьютеры стали широко доступны, были созданы программы, позволяющие подойти к этой задаче практически. Сегодня системы распознавания текстов (OCR) составляют важную часть большинства технологий хранения и обработки документов.

С этой точки зрения можно только приветствовать появление новых методов, таких как «фонтанное преобразование» или «метод распределения масс». Но главное – довести разработку до конечного результата – работающего программного продукта. В этом, мне кажется, Cognitive Technologies и Bit Software преуспели.

Хочется особо отметить реализацию в системе CuneiForm адаптивных или самообучающихся алгоритмов – давней мечты разработчиков систем OCR.

Идея эта настолько стара и очевидна, что трудно назвать ее автора. Давайте разобьем все множество букв текста (например, страницы) на группы. Математики называют их кластерами. В одну группу отнесем символы, «похожие» друг на друга. Вообще говоря, мы получим столько кластеров, сколько букв разных начертаний имеется в тексте. Теперь можно распознавать уже не отдельные буквы, а целые группы. Разумеется, сделать это значительно проще. Мы, например, гарантированы от рассмотрения случайных образований, каждый признак может быть проверен на многих буквах и т. д. К тому же, распознав кластер, мы распознаем сразу много букв.

В принципе, можно осуществлять распознавание таким способом, даже не зная начертаний букв, подобно тому, как расшифровываются письмена неизвестных языков.

Все это так, но на пути самообучения стоит столько препятствий, что пробиться через них совсем не просто. И понятие «похожести» очень трудно определить, и что делать с кластерами, содержащими один символ, неизвестно, да и сравнивать все встретившиеся буквы друг с другом очень долго. По-видимому, авторы CuneiForm преодолели эти трудности, опираясь на уже имеющееся вполне приличное распознавание.

Системы распознавания стали интеллектуальными. Стоит обратить внимание и на то, что интеллектуальная сторона программ не ограничивается распознаванием только текста: развиваются направления распознавания визитных карточек, ценных бумаг, таблиц, стандартных форм. Каждая из этих программ требует решения целого класса задач.

Но главное, разработчики не забывают об основной задаче таких систем. Речь идет о вводе информации в базы данных и другие системы хранения и поиска информации. Действительно, распознавание редко бывает необходимо само по себе. Распознанный текст необходимо сразу же поместить в среду, где его можно будет легко найти, извлечь содержательную информацию, обработать и т. п. Поэтому представление программы распознавания в комплексе с программой-архивом выглядит перспективным, целостным подходом к решению проблемы обработки документов.

1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /172, 1996 г./ | Бонус | Поиск

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru