1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /123, 1995 г./ | Бонус | Поиск  

Тема номера

Алло, ответьте, пожалуйста, компьютеру!

Александр Крайнее


© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

Вам никогда не доводилось пользоваться уличным телефоном-автоматом в Америке? О, это очень забавно, уверяю вас. Набираешь номер (внутригородской или междугородный, с кодом) и в трубке слышишь (голос, разумеется, механический): "Опустите, пожалуйста, столько-то долларов и столько-то центов за первые три минуты разговора" . Отсчитываешь мелочь (здорово неудобно, надо сказать, – накидать пару долларов монетками по 25 центов), и когда набирается нужная сумма, тот же голос говорит: "Спасибо", а дальше идут знакомые всем длинные или короткие гудки.

Как может быть устроена такая система – вполне понятно. Видимо, где-то на АТС установлен компьютер, который распознает набранный номер, "смотрит" в таблицу тарифов и озвучивает нужное сообщение. Потом тот же компьютер получает от телефона информацию о монетах, считает их и в нужный момент произносит слова благодарности. Это пример работы системы компьютерной телефонии.

Вообще, в США такие компьютерные системы встречаются на каждом шагу. Звонишь, например, в авиакомпанию, а компьютер тебе говорит (после непременного приветствия): "Наберите: "О", если хотите подтвердить билет "Г, если хотите узнать расписание полетов; "2", если хотите получить информацию о прибытии рейсов". Это простейшие примеры. На самом деле системы компьютерной телефонии могут быть значительно сложнее, гибче и выполнять куда больше функций.

Если сказать одним словом, то компьютерная телефония – это гибкая система интерфейса между человеком у телефона и компьютером, находящимся где-нибудь в организации (в офисе, банке – да мало ли где). Области ее применения – это голосовая почта (набор голосовых почтовых ящиков, в которых можно или оставлять сообщения, или "вынимать" их оттуда, – короче, что-то вроде интеллектуального автоответчика), системы офисной коммутации, предоставление информации по требованию (звонит, скажем, человек в банк, чтобы узнать текущее состояние своего счета, а ему отвечает компьютер – разумеется, только после того, как человек наберет на своем телефонном аппарате все необходимые коды и пароли) и многое другое.

Диалог между человеком и компьютером в телефонно-компьютерных системах чаще всего устроен так: компьютер обращается к человеку, используя обычную речь, а человек отвечает компьютеру, набирая определенные цифры или комбинации цифр на своем телефонном аппарате. Основой диалога служат голосовые меню: человек выслушивает, какие действия он в данный момент может осуществить и что надо для этого сделать, а затем выбирает одну из опций данного меню, произведя необходимые действия.

Существует два класса аппаратуры, которые можно использовать для организации телефонного пользовательского интерфейса. Конструктивно – это как правило платы расширения для обычных компьютеров. Ну, а отличается аппаратура возможностями, степенью гибкости и, конечно, ценой.

Сначала упомяну разнообразные одноканальные голосовые платы. Они позволяют озвучить сообщение для абонента, записать произнесенный человеком текст на диск в голосовой форме. Кроме того, голосовые платы распознают сигналы тонового набора, так что с их помощью можно устраивать простые голосовые меню. Цена плат относительно невелика(порядка нескольких сотен долларов), но, надо сказать, и возможности их нельзя назвать огромными: главный недостаток – они не позволяют строить многофункциональные гибкие системы с возможностью наращивания.

Тем не менее эти устройства могут оказаться весьма полезны, когда требования к пропускной способности, гибкости и универсальности системы не критичны.

Значительно более широкими возможностями обладает аппаратура другого, более дорогого класса: это отличающиеся пропускной способностью и ценой гибкие системы из большого количества устройств, выполняющих различные функции В этой области доминирует американская фирма Dialogic, доля которой составляет примерно 70%. Роль Dialogic на рынке компьютерной телефонии столь велика, что многие компании представляют свою продукцию как Dialogic-compatible (что-то вроде IBM-compatible на рынке персональных компьютеров). Фактически речь здесь идет о некой открытой технологии, чья архитектура (Signal Computing System Architecture, SCSA) опубликована и доступна для использования в собственных технических разработках.

SCSA определяет стандарт как на аппаратные средства реализации систем компьютерной телефонии, так и на соответствующее программное обеспечение. Именно на примере продукции Dialogic мы и расскажем, что такое гибкие системы компьютерной телефонии.

Что же входит в этот "конструктор" для построения больших систем? Прежде всего, это, конечно, разнообразные голосовые платы. Различаются они в основном числом обслуживаемых каналов (от 2 до 30) и наличием интерфейсов с теми или иными стандартными телефонными линиями. Функции же, выполняемые этими платами, примерно одни и те же: оцифровка и сжатие речи или, наоборот, воспроизведение заранее записанных в цифровом виде голосовых сообщений. Кроме того, эти устройства могут распознавать сигналы тонового набора. Можно сказать, что данные голосовые платы на аппаратном уровне реализуют все функции, необходимые для организации простых систем на базе голосовых меню.

Следующий "кубик" – факсимильные платы (2-4-канальные), работающие как многоканальные факсмодемы. Они могут использоваться двояко: во-первых, для рассылки факсов по заранее заданному списку номеров; а во-вторых, для отправки факса по запросу, пришедшему в ходе телефонного диалога с системой. В последнем случае возможен, например, поиск по базе данных с последующей пересылкой найденной информации в письменном виде.

Для организации телефонных конференций и коммутации телефонных звонков служат специальные платы-коммутаторы Набор существующих технических средств широк – от простого коммутатора 8x8 до интеллектуальных коммутирующих плат, способных организовывать конференции и подключать абонентов к большому числу исходящих телефонных линий.

В комплект аппаратных средств входит также плата распознавания пульсового набора, которую можно настраивать на международные и национальные стандарты. Эта функция особенно важна для потенциальных российских потребителей, поскольку у нас далеко не все телефонные аппараты можно использовать в режиме тонового набора.

Стоит упомянуть – пусть вскользь – и платы преобразования "текст-речь" (text-to-speech conversion, ITS). С их помощью можно генерировать голосовые сообщения по ASCII-тексту. Правда, пока система работает только с английским языком.

Наконец, очень важная функция – распознавание речи. Выпускается ряд плат, способных на аппаратном уровне различать речь: как в режиме speaker-dependent (то есть при настройке на голос какого-нибудь определенного человека), так и в режиме speaker-independent (то есть независимо от особенностей голоса абонента). В первом режиме возможно распознавание слитной речи и большого числа разных слов. Во втором – распознавание сводится к небольшому набору слов – простые числительные, "да", "нет" и еще два-три слова, но зато – speaker-independent. Причем в этом режиме можно работать с самыми различными языками, в том числе и с русским, – все определяется наличием словаря для данного языка.

Dialogic разрабатывает такие словники и поставляет их вместе с платами распознавания речи. В принципе словарь можно построить и для других слов, отличных от вышеприведенных, правда, имеется ограничение, согласно которому в одной операции распознавания (например, в одном голосовом меню) можно использовать термины только из одного словаря.

Все описываемые устройства могут обмениваться информацией между собой. Для этой цели разработан стандарт шины под названием SCbus. С помощью этой технологии становится возможным не только обмен сообщениями между различными платами, имеющимися в одном и том же компьютере, но и организация так называемых многоузловых приложений, когда разные платы находятся в разных машинах. При этом для обмена информацией в многоузловых приложениях можно использовать как шину SCbus, так и некоторые другие технологии (например, ATM).

Гибкость систем определяется наличием в "конструкторе" широкого набора плат с самыми разными функциями и существованием большого числа систем программного обеспечения для работы со всеми этими платами Имея в виду какое-то определенное приложение, можно подобрать необходимые платы для реализации нужных функций и разработать (на языке высокого уровня или на специальном языковом средстве подготовки сценариев) программный пакет, который, собственно, и будет определять ход телефонного разговора с абонентом Остается найти диктора, дабы "озвучить" необходимые сообщения, – и система готова.

Интерес к новой технологии в России очень велик. Многие компании уже сейчас с большим трудом справляются с огромным потоком входящих звонков. Кроме того, телефонные диалоги во многих отраслях бизнеса стандартны – надо просто озвучивать однотипные предложения или, наоборот, задавать клиенту один и тот же набор вопросов и получать на них ответы. Справочно-информационные службы, риэлтерские компании, разнообразные телефонные магазины – вот напрашивающиеся примеры потенциальных потребителей новой технологии.

Теперь стоит заметить, что во всей этой бочке меда есть одна большая ложка дегтя. Дело в том, что все аппаратные средства, используемые на Западе, работают на основе тонового набора номера. А в России – пульсовой набор. Поэтому простые средства разработки сценариев оказываются неприменимы, и приходится использовать либо платы для распознавания пульсового набора, либо платы для распознавания речи. В последнем случае работа с компьютерно-телефонной системой становится чисто голосовой: абонент отвечает на вопросы компьютера, произнося слова из словаря (вместо того, чтобы набирать цифры на телефонном аппарате).

CompTek International, российский дистрибьютор продуктов Dialogic, уже довольно давно занимается адаптацией компьютерной телефонии к российским условиям. Здесь решили применить оба возможных варианта – и пульсовой набор, и распознавание речи. Главным потрясением для всех было то, что даже в условиях московской телефонной сети (треск, хрипы, всяческие искажения) речь распознается довольно надежно и устойчиво.

Первая демонстрация системы – пока простого голосового меню – прошла на выставке NetCom'95. "Тестированием" занимались люди с разными голосами, разных возрастов, мужчины и женщины – но система работала. Спустя некоторое время заработала и технология распознавания пульсового набора Можно сказать, что первые эксперименты по адаптации компьютерной телефонии в российских телефонных сетях прошли удачно.

Кто знает, может быть, очень скоро нам уже не придется удивляться, услышав в телефонной трубке: "Произнесите "один", если..."

 


1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /123, 1995 г./ | Бонус | Поиск  

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru