1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /171, 1996 г./ | Бонус | Поиск  

Тема номера

Казнить нельзя помиловать

Владимир Сигунов


© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

«Машина должна работать, а человек – думать». Эта фраза является девизом корпорации IBM. С её справедливостью спорить трудно, но как же хочется, чтобы машины тоже думали! Причём, не просто думали, а думали по-человечески. Иными словами, были способны принимать нестандартные решения, совершать открытия. Но прежде всего хочется общаться с компьютером не на машинном языке – сложном и с большим количеством ограничений, а на человеческом, естественном. То есть разговаривать с машиной, как с человеком.

Давайте рассмотрим подробнее, как именно общаются люди. Если человек хорошо вам знаком, то, наверное, вы не станете тщательно следить за своей речью, скрупулезно подбирать слова. Возможно, ваша речь (не важно, письменная или устная) будет небезошибочна. Ведь главное – это передать необходимую информацию, вызвать у собеседника необходимую вам реакцию.

И если вместо слова «компьютер» написать «кампьютир», вас всё равно поймут. Да и вообще, посмотрите, как часто люди, общаясь, используют сленг и обороты речи типа «железно», «от винта»... И ведь понимают друг друга!

Но, если нужно поговорить с человеком малознакомым, с официальным лицом, то, чтобы произвести благоприятное впечатление на собеседника, вы вряд ли будете использовать сленг. И ошибок тоже постараетесь не делать. Особое значение в этом случае приобретают три так называемых Э-требования (этико-эмоционально-эстетические) к тексту. Именно на их основе складывается впечатление об авторе.

А нужно ли придерживаться Э-требований, если послание адресовано компьютеру? Ведь необходимо только, чтобы он «понял» всё правильно. Поэтому текст, на который машина отреагировала верно, мы также можем считать верным, даже при наличии в нём грамматических и прочих ошибок. Иное дело, если в результате ошибки искажается смысл. (Это так называемые «радикальные ошибки», например, когда в слове «девятый» вместо буквы «в» появляется буква «с».) Анализ большого числа текстов на естественном языке показывает, что количество радикальных ошибок ничтожно по сравнению с числом ошибок, влияющих на Э-требования. Но если вероятность появления радикальных ошибок мала, то и вызванные ими сбои в работе компьютера можно отнести к неизбежному проценту отказов системы.

Всё сказанное позволяет ничего не предпринимать не только для устранения радикальных ошибок, но даже для их обнаружения.

А теперь представьте, как было бы здорово, если бы компьютер мог понимать вас, несмотря на все нерадикальные ошибки. Сколько бы исчезло проблем. Давайте обсудим, как же должна вести себя система, обнаружившая нерадикальную орфографическую ошибку? Собственно говоря, нашей целью является научить машину игнорировать любую Э-ошибку, чтобы неверное написание слова или построение фразы в тексте не приводило к неправильной реакции. Значит, в системе должен быть предусмотрен словарь, а компьютер должен идентифицировать введенное слово (либо фразу) со словарным и действовать так, как будто ошибки не было.

Человеку свойственно нечёткое мышление. В своих рассуждениях люди часто прибегают к оборотам вроде «вероятно», «скорее всего», «в ближайшее время». Описать и формализовать подобные элементы рассуждений позволяют нечёткие логики, в частности модальная и темпоральная (временная). Все нечёткие логики включают в себя классическую как подмножество. Но, увы, компьютеру нечёткий подход чужд. Он основан на классической логике, не допускающей двусмысленности. Следовательно, проблему идентификации слов с ошибками можно решить одним из двух способов: либо изменив архитектуру компьютера, либо смоделировав на существующей архитектуре механизм нечётких рассуждений. Первое решение в ближайшее время вряд ли реально, следовательно, остаётся второе.

Моделирование нечётких рассуждений в рамках понимания текстов с ошибками сводится в конечном итоге к одной из задач искусственного интеллекта, а именно – к задаче распознавания образов. То есть, система должна распознавать смысл слов – подобно тому, как существующие ныне системы OCR распознают буквы. Решение проблемы распознавания образов предполагает наличие у распознаваемых объектов некоторых постоянных свойств – инвариантов, на основании которых эти объекты можно сравнивать между собой и сопоставлять с эталоном. Для решения этой задачи существует несколько приёмов. Так, например, слова в словаре разбивают на комбинации букв (по две или более буквы в зависимости от объёма словаря) и решение о совпадении слова принимают на основе совпадений комбинаций в образце и в исследуемом слове. По такому принципу построены системы проверки орфографии в большинстве текстовых редакторов.

Второй подход использует методы теории кодирования, в частности, коды для передачи информации, исправляющие ошибки. Теория кодирования позволяет вычислить вероятность перехода одной цепочки знаков (слова!) в другую и постараться перейти от ошибочно написанного слова к правильному.

К сожалению, оба метода имеют существенный недостаток. Они осуществляют только предварительное опознавание, а окончательное заключение оставляют человеку. Следовательно, подобные методы для нашей цели не годятся.

Однако существуют способы для точного автоматического выбора правильного написания слова и даже словосочетания. Они основаны на построении так называемых Q-таблиц соответствия слов. Разработаны реализующие данный метод системы, которые в режиме реального времени распознают фразы с большим количеством Э-ошибок и обеспечивают корректную реакцию на ошибочный ввод. Применимы они в первую очередь в АСУ и СУБД. К сожалению, рамки журнальной статьи слишком узки, чтобы подробно рассказать о них. Желающие могут ознакомиться с реализацией метода Q-таблиц в книге В.С.Файна и Л.И.Рубанова «Машинное понимание текстов с ошибками».

В заключение можно лишь сказать, что если компьютеры «научатся» игнорировать ошибки (причём ошибки не только в текстах на естественных языках, но и в программах), то работа с компьютером будет доставлять ещё больше удовольствия и у человека появится ещё больше времени, чтобы думать.

 


1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /171, 1996 г./ | Бонус | Поиск  

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru