1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /159, 1996 г./ | Бонус | Поиск  

Рынки

Электронные словари помогут переводчикам

Евгений Тимофеев


© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

Лингвистическими программными продуктами в России занимаются главным образом отечественные фирмы. Значительную часть этого рынка образуют электронные двуязычные словари, рассчитанные на самые широкие круги пользователей.

Общий вид

Первый в России двуязычный электронный словарь (ЭС) появился в самом конце 80-х годов. Сегодня за внимание покупателя борются уже как минимум пять продуктов приличного качества: "Контекст" (фирма "Информатик"), Lingvo ("БИТ"), Polyglossum ("ЭТС"), RusLan (совместная разработка издательства "Русский язык" и компании "СовЛит"), а также недавно созданный "МультиЛекс" ("МедиаЛингва"). Конкуренция не позволяет производителям топтаться на месте и ускоряет выпуск новых версий.

Спрос на двуязычные ЭС стабилен и напрямую зависит от компьютеризации жилищ и малого бизнеса. Между тем направленность этих продуктов на массового пользователя приводит к тому, что большинство их копий – пиратские. Таков уж удел всех "народных" программ.

Все представленные на рынке словарные продукты позволяют осуществлять англо-русский и русско-английский перевод. Имеется словарь с немецкой лексикой (издательство "ЭТС"), сейчас ведутся работы над созданием франко-русских электронных словарей.

Обычная тактика разработчиков двуязычных ЭС заключается в следующем. Сначала презентуется среда с системой поиска, к коей прилагается словарь общеупотребительной лексики. Затем "вдогон" выпускаются небольшие специализированные словари, которые можно докупать и устанавливать отдельно. Отдохнув и пожав плоды, разработчики приступают к очередной версии продукта, выход которой часто приурочивается к "Комтеку" или "Windows Expo".

Электронные словари облегчают труд переводчика, не изменяя его по существу. Программы-переводчики словарям не конкуренты: они ненадежны, и результаты их работы все равно приходится доводить вручную. Пo-видимому, словари следовало бы включать в пакеты систем машинного перевода.

Современные двуязычные ЭС имеют ряд общих возможностей. Это использование гипертекстовых ссылок на словарные статьи, быстрый перевод по "горячему ключу" текста из Windows-приложений, вывод статей через буфер обмена в файл или на печать. Главными преимуществами электронных словарей перед бумажными являются удобство и скорость поиска; последний параметр, однако, зависит от способа хранения ЭС (на винчестере или CD-ROM), размера ОЗУ на машине пользователя, объема баз данных и наличия или отсутствия процедуры морфологического анализа. Так как последние версии ЭС написаны под Windows, их требования к аппаратному и программному обеспечению ограничиваются запросами этой ОС. Для полноценной работы со словарями также рекомендуется использовать текстовый редактор – Word, AmiPro или WordPerfect, – с которым ЭС может установить режим прямого обмена текстовой информацией.

 

 

Самое главное

Выделим наиболее существенные признаки, по которым можно классифицировать продукты описываемого класса ПО. Прежде всего, это объем словарных баз данных, т. е. размер ЭС. Традиционно словари подразделяются на малые, средние и большие: малые содержат до 30 тысяч слов, средние – около 60 тысяч, большие – 150-250 тысяч.

Ядром каждой системы является словарь общеупотребительной лексики, основанный на ранее выпущенном "бумажном" издании -до недавних пор, как правило, среднего объема: словари Мюллера, Уилсона, Оксфордский словарь и некоторые другие. Правда, в многословарную поставку Polyglossum входит малый словарь ("Student's dictionary"), а выпущенный в "ЭТС" словарь Мюллера издается на отдельном диске. Единственный большой электронный словарь содержится в "МультиЛексе" – это "Новый большой англо-русский словарь" Апресяна.

Оценивая объемы баз данных ЭС, следует иметь в виду, что всякий двуязычный электронный словарь позволяет осуществлять перевод в обе стороны, и таким образом количество доступных для перевода слов фактически удваивается. Кроме того, декларируемое разработчиками число слов (статей) в БД продукта не всегда соответствует числу слов в оригинальном словаре. Это может происходить, например, из-за включения в общую цифру всех словосочетаний или "атомарных" статей, когда несколько из них может относиться к одному слову.

Вторая характеристика ЭС – вид функции поиска словосочетаний, имеющейся практически в каждом издании. Поиск может быть жестким, когда переводятся только фразы, внесенные в БД словаря ("Контекст", Polyglossum, Lingvo), или гибким, позволяющим находить словосочетания со словами, стоящими в разном порядке или не заданными пользователем ("МультиЛекс", RusLan).

Третьим критерием является возможность перевода слов, находящихся в произвольной форме. "МультиЛекс" и "Контекст" реализуют ее, проводя морфологический разбор вводимых слов. RusLan не имеет средств для подобного анализа, но зато располагает наборами всех мыслимых словоформ для каждого слова, имеющего словарную статью.

Наконец, обязательно стоит обратить внимание на возможность программ работать с пользовательскими словарями, редактировать их и постоянно пополнять – как это сделано, например, в Lingvo и "Контексте".

Новая поросль. "МультиЛекс"

Словари "МультиЛекс" и RusLan, вышедшие на рынок за последний год, относятся к новому поколению ЭС – благодаря только что упомянутой возможности переводить любые формы слов.

Электронный словарь (ЭС) "МультиЛекс" был создан весной этого года разработчиками "МедиаЛингва" (дочерней фирмы компании "ИСТ"), примерно половина которых в свое время работала над "Контекстом". Продукт, выпущенный на CD-ROM, содержит полную электронную версию "Нового большого англо-русского словаря" Апресяна на 250 тысяч слов (трехтомник в бумажном издании 1994 года) – наиболее полного собрания английской лексики с переводами; при этом словарь является двусторонним и позволяет переводить как с английского на русский, так и обратно.

Особенность нового продукта -представление словарных статей на экране в виде, приближенном к стандарту бумажного издания, своеобразный WYSIWYG для ЭС. Здесь сохранены оригинальные шрифтовые выделения, отступы, надстрочные символы и т. д. Текст статей, правда, заново отформатировали: строки, ранее "монолитные" (для экономии места), были разбиты по абзацам. Словарная статья содержит заглавное слово с транскрипцией, варианты его русских эквивалентов, тематические пометки для некоторых из них, примеры с дословными переводами и т. д. Ударная гласная выделяется красным цветом. Внешний вид статьи, цветовые выделения, кегль, шрифты, как и весь интерфейс системы, легко настраивается. Прямо походу работы пользователь может изменять особенности представления информации, отключая отображение ненужных или второстепенных данных (например, оставив только примеры).

Визуально среда "МультиЛекса" состоит из окна списков и окна вывода словарных статей. Размеры последних, как и окно самой системы, можно произвольно менять, при этом выводимый текст автоматически переформатируется без переноса слов.

Списки слов формируются по-разному. Во-первых, здесь можно выводить алфавитный перечень английских слов из БД словаря. Во-вторых, списком представляется и "история запросов", то есть все ранее введенные запросы на перевод. В-третьих, при переводе русскоязычного текста в окне списков выводятся результаты поиска – одно или несколько английских эквивалентов, плюс заголовок "Примеры". Наконец, в словаре появилась совершенно уникальная возможность вывода информации, ранее отмеченной пользователем виртуальной "закладкой".

Следует иметь в виду, что словарная статья "МультиЛекса", даже при переводе с русского на английский, дается только для английских слов (для каждого из найденных переводов). Дополнительной возможностью в этом случае является расположение найденных статей либо по алфавиту, либо по степени соответствия запросу.

Как уже говорилось, "МультиЛекс" – словарь морфологический, и ему достаточно хранить основы слов и ссылки на конкретные словарные статьи. Ссылки расставлены и внутри словарного массива – в полном соответствии с оригинальными "см.", а гипертекст позволяет расширить тематическую область поиска точного перевода. Кстати, помимо поиска статей система автоматически ищет все словосочетания с введенным словом и выводит их отдельным списком.

Отдельно следует упомянуть об "интеллектуальном" поиске переводов словосочетаний, которые можно посылать прямо на вход системы: в этом случае пользователь получает все найденные словосочетания с введенными словами, так что для поиска достаточно ввести часть фразы с любым порядком слов.

 

 Пока фирма "МедиаЛингва" выпустила только версию 1.0 данного продукта. По сравнению с другими программами этого же класса она имеет ряд недостатков: работает только под Windows 95, отсутствует пользовательский словарь. Оставляет желать лучшего и скорость поиска переводов: пока на диске можно установить только очень небольшую часть программы. Однако все перечисленные недостатки должны исчезнуть в следующей версии 1.1 "МультиЛекса", выходящей этой осенью.

RusLan

Выпущенный еще в прошлом году (также на CD-ROM), электронный словарь RusLan до сих пор на рынке всерьез не "раскручивался". Его создатели – издательство "Русский язык" и фирма "СовЛит" – положили в основу БД ЭС словари Мюллера (англо-русский) и Смирницкого (русско-английский). Это два словаря среднего объема, содержащие примерно по 60 тысяч слов каждый, причем второй является самым большим из русско-английских.

По утверждению разработчиков, число статей RusLan'a (с учетом всех словосочетаний) составляет 200 тысяч. Наличие одного общего словаря отражает принципиальную позицию разработчиков: свое нежелание делать специализированные словари они объясняют тем, что пользователю вполне достаточно тематических помет в едином словаре. Потери же продуктивности при отказе от тематической специализации они оценили как незначительные.

В отличие от "МультиЛекса" исходные словари RusLan'a существенно переработали так, чтобы к ним можно было легко добавлять данные из любых других словарных БД, и разбили каждую статью на составляющие. Устойчивые же словосочетания были вынесены в отдельные статьи.

Отказавшись от морфологического анализа, разработчики были вынуждены ввести в словарь несколько миллионов словоформ. Подобный экстенсивный подход привел к увеличению БД примерно до 100 Мбайт (кстати, словарь следующей, существенно обновленной версии RusLan'a, ожидаемой к концу этого года, будет увеличен еще более чем в два раза), что в итоге не позволяет устанавливать ЭС на винчестер. Вместе с тем использование жесткого поиска заметно увеличивает скорость работы, а введенные вместе со словоформами их описания позволяют однозначно идентифицировать число, падеж, род и остальные характеристики, приводимые в словарной статье.

Интерфейс программы необычайно прост. Небольшим количеством опций можно управлять прямо из основного окна системы, а число команд главного меню сведено до минимума. Но есть и недостатки: невозможно изменять размеры основного окна, а внутрисистемные окна, в которых выводятся помощь и таблица аббревиатур словаря, могут размещаться только в его пределах.

Слова для перевода, вводимые из стандартной строки-окошка, выводятся аж в три окна: статистика, результаты поиска и соответствующие им словарные статьи. Последние можно просматривать, перемещаясь по списку найденных слов и фраз.

Регулировать подробность вывода в словарной статье RusLan'a можно лишь частично. Программа позволяет отключать грамматические комментарии, тематические пометы и простановку ударений. Транскрипция приводится только для английских слов. В сложных случаях при русско-английском переводе даются толкования значения слов.

Функция автокоррекции выражений позволяет отфильтровывать так называемые стоп-слова (предлоги, союзы и т. д.), когда на вход системы подаются целые куски текста, а функция нормализации заставляет систему находить все статьи, в которых нужное слово встречается в произвольной форме.

RusLan допускает три вида поиска с использованием логических операторов: отдельно по словам (через "ИЛИ") при вводе нескольких слов через пробел или любой другой разделитель, по словосочетаниям с использованием того же оператора и, наконец, жесткий поиск конкретной фразы, когда составляющие ее слова соединены логическим "И". Наиболее информативен второй способ: здесь ищутся как перестановочные словосочетания с введенными словами, так и содержащие каждое из них.

Работать с переводами удобнее всего не из самого RusLan'a, а из Windows-приложений. Хотя возможность передачи данных через буфер обмена имеется, работа пойдет гораздо быстрее, если пересылать текст по "горячему ключу". Вообще же RusLan рассчитан на тесное взаимодействие с текстовыми редакторами.

Сегодня продукт можно купить как в московских книжных магазинах, так и у фирм-распространителей, торгующих по всей стране. В разных торговых точках цены на RusLan колеблются от 35 до 65 долларов.


1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /159, 1996 г./ | Бонус | Поиск  

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru