Архив 1995-1996 года

1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /172, 1996 г./ | Бонус | Поиск

Тема номера

Ой, что это?

Денис Викторов

© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

Свой опыт

Мозг на протяжении всей жизни человека постоянно занят проблемами распознавания сигналов и выработкой соответствующих реакций на них. И не случайно практически любой научный труд, любая статья, так или иначе связанные с вопросами машинного распознавания образов, по традиции начинаются с биологических аналогий.

При подготовке этой «темы» я с большим удовольствием перелистал несколько книг, изданных в 60-70-е годы и посвященных «будущему кибернетики». Среди чудесных дискуссий о роботах, искусственном интеллекте, «воспроизводстве» киберов и даже «электронной модели капиталистической системы» обнаружились не менее жаркие споры о распознавании образов; во многом эти споры достаточно актуальны и сегодня.

Похоже, стоящие на наших столах компьютеры, о которых двадцать лет тому назад можно было только мечтать, не приблизили нас к воссозданию интеллектуальных функций, присущих человеку, по крайней мере в том смысле, в каком ожидают люди, которым наплевать, «как все это работает». Мы только подбираемся к этим рубежам.

Разумеется, не хотелось бы вдаваться в подробности и пространные рассуждения, но и говорить о системах оптического распознавания символов просто как об одном из классов ПО не стоит. Слишком многое за этим скрывается.

Итак, вроде бы все просто. Прекрасная модель перед нами, вернее – в нас самих. Обычный человек, не «кибернетик» и не «философ», вероятно, вполне внятно может описать действия центральной нервной системы при распознавании образов.

Этому обучает чуть ли не школьный курс биологии.

Образ как таковой является продуктом нашего восприятия, а «распознавание» состоит в отнесении этого образа к определенной категории. Понятно, что большинство задач такого рода мозг осуществляет автоматически, иными словами, мы не прилагаем специальных умственных усилий к тому, чтобы распознать, скажем, «огонь» и понять, что он «горячий». В какой-то момент развития организма опыт превратился в знания, и наработанные алгоритмы восприятия работают как будто сами по себе. Достаточно мощным вычислительным устройствам, кажется, по силам воспроизвести хотя бы в общих чертах человеческую модель восприятия и распознавания, чтобы добиться ошеломляющих результатов. Но даже совместные усилия биологов, философов, теоретиков искусственного интеллекта и инженеров пока не дали ощутимых сдвигов в этой области.

В принципе как такового «машинного распознавания» хоть отбавляй: автомат в метро распознает жетон, телефон – магнитную карту, автоматическая касса – штрих-код, дактилоскопический замок – хозяина квартиры по «отпечаткам пальцев». И все же большинство подобных примеров в действительности трудно отнести к «распознаванию образов» с большой буквы.

Лучше всего идею «настоящего» и «ненастоящего» искусственного интеллекта с прицелом на рассматриваемую проблему демонстрирует, на мой взгляд, один из сюжетов Станислава Лема («У роботов – свои притчи»).

История началась с того, что ученый Трурль создал очень умного робота. Однако в его функции входила лишь сортировка деталей. Как-то робот пришел к своему создателю и сообщил, что он слишком умен для такой работы, мозги, дескать, от нее ржавеют, а «мыслить» очень хочется. Трурль предложил роботу сидеть в сторонке и мыслить, а сам создал более простую модель, лишенную «эмоций». И более примитивный робот прекрасно сортировал детали.

Другой ученый, уязвленный успехом коллеги, построил самый примитивный механизм из сеток разной величины для сортировки деталей трех типоразмеров. Этого хватало.

И началось соревнование...Трурль перепрограммировал своего умного робота для других фабрик, но этот робот оказался очень дорогим. Тем временем его оппонент придумывал, на первый взгляд, примитивные и лишенные «интеллекта» системы, используя для решения разных задач то эффект трения, то (при большой номенклатуре деталей) радиоактивные метки, позволявшие с тем же успехом, что и при использовании «умного» робота, но гораздо дешевле, добиваться аналогичных результатов.

Формально (если учесть, что непоэтические сетки на конвейере так же, как и робот, сортировали детали) и то и другое техническое решение занимались «распознаванием». С точки зрения практики конструирования механизмов, чем надежнее и проще механизм, тем лучше!

И все-таки в глубине души мы понимаем, что «распознаванием» занимался именно робот. Решение этого ребуса оставим философам. Для нас интереснее другое.

Мощная интеллектуальная распознающая система подчас оказывается настолько дорогой и сложной, что так и тянет заменить ее более простым механизмом. Кстати, так и поступили архитекторы коммунистического общества в нашей стране. В то время как НИИ создавали роботов, рапортовали на съездах и конференциях, лидером по их использованию в промышленности становилась Япония. А наш народ продолжал закручивать гайки вручную... Как тут не вспомнить античного мыслителя Марка Варрона, делившего орудия труда на молчащие (например, лопата), мычащие (животные) и говорящие (рабы).

И все же компьютер уже давно соответствует классической «палке», ставшей в незапамятные времена «продолжением руки». Ну, разве что теперь это еще и продолжение мозга.

Разумеется, можно усадить полк машинисток перепечатывать на компьютере («вбивать в компьютер», как они выражаются) фонды Ленинской библиотеки для создания электронного архива. А можно поставить несколько дорогих линий поточного сканирования и распознавания. Итог будет один и тот же, только во втором случае мы, надо думать, получим определенный выигрыш и ощутим вкус прогресса. Вкус для человека жизненно необходимый.

Не стоит абсолютизировать и биологические распознающие системы, хотя лучших пока, кажется, нет. Мы с вами падаем, ломаем руки, наносим себе раны ножами несмотря на «знания», «опыт» и т. п. А согласно истории, приведенной Рудольфом Баландиным в книге «Распознавание в природе и природа распознавания», на одном из конгрессов по распознаванию образов ученые мужи не узнали (не распознали, хочется добавить) в толпе прилетевших коллегу, которого встречали. И только потому, что тот помогал даме с ребенком и катил коляску, в то время как его ожидали «одного».

Шутки шутками, но речь-то идет об отделении ценной информации от шума!

Механическая машинистка

Николай Никольский, сотрудник компании Cognitive Technologies, рассказал мне как-то еще один крайне показательный анекдот. На презентации компания должна была показывать новые модели сканеров, кажется, от HP и работу с ними системы CuneiForm. И, чтобы не было скучно, решили пошутить. За пару дней до события одного из коллег нарядили во фрак и сфотографировали, затем фотографию отсканировали, а графический файл сохранили. На презентации, рассказывая о потрясающих возможностях сканера, Никольский без тени улыбки пригласил коллегу во фраке на сцену, предложил «подсадной утке» подойти к сканеру поближе и включил его на считывание при открытой крышке. Ассистент тем временем аккуратненько открыл в графическом редакторе заранее сделанную картинку и предъявил публике.

Но ожидаемой реакции зала не последовало. На недоуменный вопрос устроителей презентации:«Ну как?» – из зала прозвучало уж совсем неожиданное: «А что вы гордитесь, давно надо было так сделать»!

До сих пор огромное количество пользователей с трудом понимает разницу между отсканированной страницей текста и файлом, с которым действительно можно работать в текстовом процессоре. На моих глазах народ пытался загрузить в WinWord только что отсканированный документ и искренне поражался, почему вдруг программа не работает?!

Это, кстати говоря, и послужило исходным моментом в разработке «темы».

К тому же практикуемый ныне подход к оценке систем оптического распознавания символов настораживает. Как, кстати, и систем машинного перевода.

В свое время наши тестировщики здорово накололись, гоняя взапуски FineReader и CuneiForm – две жестко конкурирующие на российском рынке программы OCR. Неаккуратный учет результатов и качества исходных текстов, а также довольно слабая методика привели к тому, что постоянно тлеющий пожар конкуренции между компаниями-производителями этих систем грозил обернуться очередным скандалом, но теперь уже с участием «Компьютерры».

Этого допускать, разумеется, нельзя. И мы решили поступить иначе: поговорить о системах OCR вообще и предложить разработчикам рассказать о том, как их детища устроены в принципе. Это, на мой взгляд, гораздо интереснее, чем дурацкие таблицы сравнений и прочее.

В этом раунде обмена технологическими аргументами играют, как вы уже догадались, наши старые знакомые – Cognitive Technologies и Bit Software. Достаточно взять подшивку «Компьютерры», чтобы вспомнить споры о качестве новых версий, судебные разбирательства, а также различные маркетинговые ходы.

В принципе обе компании заняты поиском путей реализации своей продукции и все активнее – вне сектора SOHO. С последним-то как раз все ясно.

Эти системы уже не так дороги, часто их можно купить вместе со сканером, и все чаще они используются индивидуально или, по крайней мере, небольшими группами людей.

Вспомните появившиеся некоторое время тому назад приглашения в газетах бесплатных объявлений: «Вводим машинописные тексты в компьютер, быстро и недорого». До сих пор этот аргумент используют в своей рекламе, по-моему, все, кто имеет отношение к бизнесу «распознавалок». Говорят, таким образом можно было за месяц окупить и сканер, и «распознавалку», да еще и на хлеб с маслом оставалось.

Сегодня оба игрока демонстрируют завидную настойчивость в подписании OEM-контрактов (как правило, с производителями сканеров) и в заключении контрактов с крупными госструктурами. Довольно долго обсуждался любопытный ход Cognitive Technologies в сторону AS/400. Ну, да не об этом сегодня речь.

Кстати, я познакомился с OCR года полтора назад. С одной стороны, у нас в редакции никогда не держали машинисток, прекрасно понимая, чем такие эксперименты заканчиваются, с другой – необходимо было работать с факсами компаний для рубрики «News in Brief». И, наконец, вводить всю эту красоту руками было лень. Результаты были, разумеется, разными, и иногда исправление ошибок занимало примерно то же время, которое ушло бы на ручной ввод. Но так было интереснее.

На самом деле OCR здорово выручают в случае с массовым, поточным вводом и распознаванием текстов. Это касается проектов наподобие Национальной службы новостей, всякого рода анкетирований, голосований, формирования электронных копий библиотек, архивов и музейных коллекций.

Тем более что благодаря активной деятельности производителей принтеров, факсов и копиров «безбумажная информатика», о которой мы мечтали вслед за Глушковым, пока так и не расцвела .Мы, кажется, производим все больше бумажных документов несмотря на разные системы управления деловыми процессами и «электронные офисы». А Россия уж точно еще надолго останется хорошим рынком для систем OCR.

Борьба здесь идет нешуточная, а если отбросить все эмоциональные наслоения, вызванные конкуренцией ведущих линий, то окажется, что сражения в первую очередь идут за качество распознавания все менее качественных текстов, а значит – за отстаивание своих технологий. А «распознавалку» качественных документов, вылезающих из лазерного принтера, да при условии стандартизации шрифтов вы и сами напишете, если деньги дадут.

Системы OCR уже овладели секретами сегментации текстов, отделения картинок от основного документа, работают с таблицами, визитками и даже с рукописью, правда, стандартизованной,«рукопечатной». Иными словами, писать вы должны точно так, как если бы писали почтовый индекс на конверте. Так что «распознавалки» становятся, как принято говорить, «все более интеллектуальными». Не говоря о том, что практически те же технологии могут быть перенесены в сферу распознавания, например, речи.

При этом, как говорил Гете: «Мир видит каждый в облике ином, И каждый прав, – так много смысла в нем». Будущее систем оптического распознавания символов их разработчики видят по-разному. По-разному они подошли и к написанию статей. Но это их право. Мы предоставили компаниям возможность в равных объемах рассказать об устройстве, развитии своих систем все, что они сочли нужным; статьи расположены в алфавитном порядке: сначала «Бит», затем Cognitive.

Слово за ними. А на десерт будет независимый эксперт... в маске.

{НАЧАЛО ВРЕЗКИ}

Созданный компанией General Motors робот «Робби» умел ориентироваться в пространстве с помощью фотоэлементов, однако разработчики с удивлением заметили, что машина «сходила с ума» в присутствии молодой сотрудницы. Робот, естественно, не мог «влюбиться», но, как выяснилось, на его систему распознавания сильно влияла яркая помада, которой пользовалась девушка. Стоило ей сменить помаду, и робот заработал нормально.

{КОНЕЦ ВРЕЗКИ}

{НАЧАЛО ВРЕЗКИ}

Одним из интереснейших проектов в области распознавания стал «Перцептрон», разработанный в 1957 году американцем Розенблаттом. Устройство имитировало принципы восприятия, свойственные высшим биологическим системам. Перцептрон обладал подобием глаза (роль сетчатки выполняли фотоэлементы), и благодаря довольно сложной по тем временам технологии его можно было научить распознавать различные геометрические фигуры.

{КОНЕЦ ВРЕЗКИ}

1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /172, 1996 г./ | Бонус | Поиск

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru