Интернет
Информационная система «Парк»
Вячеслав Алпатов
Для кого-то Сеть – бесконечное пространство для свободного «Web-серфинга». Но многих привлекает в первую очередь возможность быстрого получения необходимой информации, в частности – экономической. Причем речь идет не о ворохе статей, а о конкретных данных. Именно на таких пользователей ориентирована информационная система «Парк», созданная российской компанией «Гарант-Парк».
«Парк» (http://www.park.ru/) представляет собой базу документов (статей, публикаций) с развитыми возможностями поиска и анализа. Уже сейчас система содержит электронные версии изданий ведущих российских информационных и аналитических агентств, журналов и газет как федерального, так и регионального уровня, а также собственные аналитические материалы, статьи независимых экспертов и статистические данные различных министерств и ведомств.
Все документы интегрированы в единую поисковую среду, что позволяет осуществлять отбор материалов по избранной теме, причем как по всему информационному блоку, так и по отдельным изданиям. Похоже, пока «Парк» не имеет аналогов в России.
Сейчас в базе данных представлены материалы агентств «Прайм», «МК-Новости», «РИА-Новости» и «Мосвнешинформ»; газет «Коммер-санть-Daily», «Сегодня», «Финансовая газета», «Финансовая газета» (Региональный выпуск), «Российские вести», «Российская газета», «Самарское обозрение» и «Российская Азия»; журналов «Эксперт», «Эксперт-200», «Автопилот», «Деньги», «Ком-мерсантъ-Weekly», «Домовой», «Финансист» и «Offshore-Express». И этот список постоянно пополняется. Как следует из подбора первоисточников, система рассчитана на людей, принимающих решения, сотрудников аналитических отделов и всех тех, кто интересуется состоянием дел в российской и мировой экономике.
Благодаря оперативному «подключению» поступающих материалов пользователям доступны самые свежие экономические и финансовые новости. Естественно, работать с таким морем информации было бы очень трудно, если бы не поисковая система «Парка», позволяющая осуществлять несколько режимов поиска.
Так, можно целиком читать все номера включенных в базу изданий, для чего предусмотрен режим поиска по агентствам, которые разделены по типам предоставляемой ими информации на новостные, аналитические и прессу. В рамках агентств статьи систематизированы по изданиям. Материалы можно получить, заказав дату выпуска и рубрику издания. Но обычно клиентам требуются сведения об определенных событиях, людях, компаниях.
Прежде всего, можно работать с рубрикатором «Гарант-Парка» (тематический поиск). Другой способ быстро отыскать требуемую информацию – воспользоваться формой запроса.
Тематический рубрикатор охватывает основные разделы экономической деятельности, причем материалы различных агентств сортируются по принадлежности к той или иной рубрике. Рубрик больше десятка (макроэкономика, налоговая система, мониторинг законодательства, внешнеэкономическая деятельность, инвестиции, приватизация, банки...), и каждая разбита на разделы, так что в целом рубрикатор включает более 150 тем. В процессе просмотра на экран выдаются прежде всего самые свежие документы, но, разумеется, можно идти и «вглубь». Для каждого документа указаны источник и дата выпуска, а все материалы темы разбиваются на страницы по двадцать документов.
Рубрикатор «Гарант-Парка» постоянно обновляется, поскольку по электронной почте ежедневно поступает около 1,5-2 тысяч документов, которые после специальной обработки попадают в БД.
Работа с тематическим рубрикатором позволяет быстро получить документы, соответствующие запросам пользователя. Однако темы рубрикатора все-таки довольно общи и включают большое число документов. Для более точного поиска используется карточка запроса, позволяющего выбрать документы по нескольким параметрам (например, источник, дата, название). Также возможен контекстный поиск по полным текстам документов, причем можно задать максимальное число выдаваемых документов.
Ориентированная на неспециалистов поисковая система «Парк» обладает мощными лингвистическими средствами и способна отобрать документы, содержащие различные словоформы исходного ключевого термина.
Пока система контекстного поиска находится в состоянии отладки и не всегда корректно работает. Поиск средней сложности (контекстный, по нескольким изданиям) занимает несколько минут.
«Ну и что, обычная поисковая система!» – скажет кто-то. Да, обычная, но пока это единственная поисковая система в «русском Интернете», работающая с множеством совершенно разных источников. Кроме того, «Парк» – система масштабируемая: при увеличении объемов информации нужно только подключать новые ресурсы без переделки всей системы.
К большей части материалов ИС «Парк» может получить доступ любой пользователь Internet. Однако (и это естественно) часть материалов предоставляется на коммерческих основаниях. Поэтому предусмотрено два режима доступа к системе: гостевой(бесплатный) и подписной (необходимо стать зарегистрированным пользователем).
На многие издания можно подписаться (сроком от месяца до года), заплатив цену подписки «бумажного» издания. Но существует и альтернатива. Можно сделать авансовый взнос и получить доступ ко всем изданиям; поиск будет проводиться бесплатно, а «кредит» уменьшается только при открытии конкретного документа. Кстати, многократное использование в течение суток одного и того же документа не влияет на размер оплаты.
При первом обращении к любому документу система предложит авторизоваться, а затем сведения о сетевом псевдониме и пароле сохраняются на все время сессии (до выхода из браузера).
Система «Парк» работает под управлением СУБД Oracle 7 на платформе SCO-5. Информация от агентств поступает в разных форматах, в силу чего специалистам из «Гарант-Парка» пришлось проделать титаническую работу по созданию HTML-конверторов для каждого агентства и собственную систему индексации.
Цикл прохождения документов от информационных агентств к пользователям информационной системы «Парк» выглядит следующим образом.
Поступающую по электронной почте информацию специальные программы «раскладывают» по соответствующим папкам. Затем программа-менеджер извлекает информацию, запускает необходимые конверторы, и преобразованные в формат HTML документы поступают на два сервера – «контекстный» (для индексации по всем значимым словам) и сервер БД (для хранения).

«Контекстный» сервер обрабатывает запросы и передает управление серверу БД для получения необходимых документов. Напрямую обращение к серверу БД происходит, если пользователю известны конкретные атрибуты – агентство, дата, издание и т. д.
Только что появившись, «Парк» продолжает активно развиваться. Одним из интереснейших нововведений станет технология WebSOM (http://www.park.ru/websom/), предназначенная для публикации документоориентированных баз данных в виде «карты плотностей».
Визуально предметная область представлена как карта, на которой области с более насыщенной окраской соответствуют большему числу документов, причем имена областей связаны с содержанием документов. Пользователь выбирает мышью любую точку на карте и получает соответствующие документы. Все предельно просто: хочешь больше документов по теме – выбирай более темное пятно. Для получения документов, содержание которых находится на пересечении нескольких разделов, служит точка, расположенная между названиями этих разделов. В зависимости от требований можно сместить точку выбора ближе к какой-либо категории. С точки зрения пользовательского интерфейса трудно придумать что-нибудь более очевидное. И не нужно никаких разговоров о мерах семантической близости, конъюнктивных запросах и т. п.
Как полагают разработчики, информационная система «Парк» должна стать своего рода «информационным интегратором» – то есть звеном, благодаря которому каждый желающий получит доступ ко всему богатству российских и мировых банков данных. Сегодня это единственная ИС, объединившая под единой программной оболочкой разные источники информации.
И все это в Сети!
От редакции: Идея, реализованная в «Парке», здорово напоминает о проблемах, которые решал в течение многих лет один из флагманов советской системы НТИ ВНИИПАС (институт прикладных автоматизированных систем). Тогда речь шла о необходимости разработки единого интерфейса для доступа к профессиональным проблемно-ориентированным базам данных во всем мире. Эти БД использовали разные поисковые системы, языки запросов, функционировали на разнообразных платформах. В итоге ВНИИПАС разработал-таки единый язык запросов и систему, адресующую их к соответствующим БД.
«Парк» пока не позволяет использовать такой сервис, однако кто знает, не займутся ли разработчики поиском новых возможностей информационного бизнеса в Сети? Многие дороги пока свободны.
Денис Викторов