Интернет
Круизы по Сети на мета-машинах – получите удовольствие!
Игорь Гордиенко
«Мы все увлечены этой интересной новой игрой, возможно,
потому, что в ней содержится символ какого-то
высокого созерцания...»
...Ни одна пристойная игра не лишена какой-то поучительности».
Николай Кузанский, «Игра в шар»
С опубликования предыдущей статьи о поисковых ресурсах Internet прошло всего две недели, а многое, как мы и предполагали, уже изменилось. В новостях этого номера вы найдете сообщения об изменениях в интерфейсах и возможностях автономных поисковых машин Infoseek и Lycos.
Но тема данного повествования посвящена другому классу поисковых ресурсов – машинам мета-поиска (meta-search engines), которые для лаконичности будем называть просто мета-машинами. Существует по меньшей мере две причины, по которым такие машины появились. Во-первых, каждая из автономных машин обладает своими способностями к поиску и, соответственно, предоставляет различные результаты. Именно поэтому каждому пользователю приходится осваивать не одну машину, а две-три одновременно. Во-вторых, каждая из автономных машин имеет достаточно жесткий формальный интерфейс, к которому пользователю приходится привыкать. Если же нужно хранить в памяти все нюансы языков запросов для нескольких разных машин, каждая из которых по-своему полезна, то просто возникает проблема.
Мета-машины можно кратко характеризовать следующим образом. Они не имеют собственных программно-аппаратных ресурсов для отслеживания изменений в Сети и проведения индексирования содержимого сайтов. В большинстве случаев они не имеют даже собственных баз, хранящих информацию о ресурсах Сети. Вместо этого мета-машины обращаются к автономным машинам и другим средствам поиска, предоставляя пользователям весь выбор инструментов. Главное достоинство машин этого класса заключается в том, что они избавляют пользователя от необходимости изучать язык запросов каждого из инструментов. Кроме того, после выхода на сайт мета-машины не нужно бегать по разным URL (Universal Resource Locator) для выхода на автономные машины: они все уже собраны на одной входной странице.
В техническом отношении мета-машина представляет собой WWW-сайт, снабженный средствами обработки поисковых запросов пользователей. Далее эти запросы транслируются в другие логические формулы, соответствующие языкам запросов конкретных автономных поисковых механизмов, на которые и направляются формулы. После того как запросы отработаны, результаты поиска могут возвращаться на мета-машины, которые их обрабатывают и приводят к единообразию. Пользователь получает сводный отчет с результатами, подготовленными мета-машиной.
Сама же приставка «мета», имея несколько близких, но все-таки различных значений, в данном случае трактуется как «нечто более высокого порядка, следующего уровня», согласно оксфордскому словарю. Таким образом, по замыслу создателей, мета-машины представляют собой более высокий уровень развития поисковых средств для Internet и являются промежуточными звеньями между пользователем и множеством разнородных поисковых ресурсов.
Следует также отметить, что все поисковые мета-машины разделяются на две группы: с одновременными независимыми множественными проходами и с единичными проходами. К первой группе можно отнести, например, ставшую классической мета-машину MetaCraw-ler, которая запускает для каждого запроса девять самых мощных автономных «ищеек», после чего сводит воедино все раздельно предоставленные результаты. Ко второй группе относятся мета-машины, входные страницы которых просто содержат множество ссылок на поисковые ресурсы; но каждый из них будет использован отдельно. К этой группе можно отнести такие системы, как All-in-One или CUSI.
Естественно, никакой жесткой классификации для мета-машин дать невозможно, поскольку некоторые из них сочетают в себе свойства, типичные и для первой, и для второй группы. Также невозможно четко провести границу между автономными поисковыми машинами и мета-машинами, чему пример – информационная система Yahoo!. Общее количество мета-машин в Internet невероятно велико. Ситуация особо обострилась в последние недели, когда масса владельцев мелких сайтов в поисках доходов от рекламы помещает на своих входных страницах интерфейсы для выхода на самые известные поисковые машины. Две недели назад мы сообщали о прецеденте незаконного использования входной страницы AltaVista. Преступники, а иначе их не назовешь, не потрудились провести хотя бы косметическую реконструкцию входной страницы. A MetaCrawler можно найти не только на ее законном месте, но и просто случайно на множестве сайтов: уж очень хороший ресурс. Мы, к примеру, случайно обнаружили его на http://www.muw.com. Никаких комментариев по этому поводу обнаружено не было.
Для того чтобы избежать рассмотрения непрезентабельных и недолговечных мета-машин, остановимся только на тех из них, которые упомянуты на сайте http://www.internic.net. Этот сайт принадлежит авторитетной специализированной компании InterNIC, созданной в январе 1993 года при участии AT&T, General Atomics и Network Solutions. В работе InterNIC самое активное участие принимает Национальный фонд науки США (National Science Foundation). Целью деятельности InterNIC является сбор и регистрация сведений о ресурсах Internet. Посетите этот сайт – вы найдете там много интересного. Но, вернемся к мета-машинам.
Самые-самые
MetaCrawler (http://www.me-tacrawler.com). С удовольствием сообщаем вам новое местоположение этого сайта. Оно изменилось буквально в середине ноября и пока не исправлено даже в справочнике InterNIC.
Эта мета-машина сейчас стала своего рода эталоном, каким для автономных поисковых машин уже почти год является AltaVista. Замечательно то, что эта образцовая мета-машина выполнена как исследовательский проект студентами Эриком Селбергом (Erik Sel-berg) и Грегом Локхартом (Greg Lauckhart) под руководством молодого профессора Орена Этзони (Oren Etzioni) при университете штата Вашингтон в Сиэтле. Эта же команда продолжает поддерживать и совершенствовать свое детище.
Как уже сказано, после получения поискового запроса от пользователя MetaCrawler запускает автономные поисковые машины Open Text, Lycos, WebCrawler, Infoseek, Excite, AltaVista, HotBot, Yahoo! и Galaxy. Результаты, полученные от каждой из машин, подвергаются верификации: проверяется доступность URL, указанных в рефератах, а также соответствие их содержимого заданному критерию. MetaCrawler позволяет сортировать списки рефератов по разным признакам: по территориальной близости сайта, по близости к определенному сайту, по отношению к организации, компании и т. п. В рефератах указывается уровень релевантности найденного источника как среднее арифметическое уровней, возвращенных всеми автономными машинами.
Критерий поиска является последовательностью слов, которые могут считаться: фразой; множеством слов, объединенных общей операцией AND; множеством слов, объединенных общей операцией OR. Можно задать два режима поиска: быстрый и тщательный (с верификацией ). Можно просматривать текущие результаты поиска и обработки результатов, включив режим исполнения Java-апплетов, которые будут поступать от мета-машины. Имеется даже возможность персонализации интерфейса MetaCraw-ler. Тогда при следующем выходе на входную страницу вы получите именно тот вид интерфейса, который был задан в предыдущий раз. Правда, пока все эти нововведения весьма чувствительны к особенностям браузеров, от которых исходят поисковые запросы. В частности, некоторые конфигурации интерфейса приводят к крушению Internet Explorer версий ниже 3.1. Netscape Navigator нормально себя ведет начиная с версии 2.0. Описать все возможности MetaCrawler здесь не представляется возможным. Рекомендуем попробовать эту машину самостоятельно.
В настоящее время MetaCrawler является бесплатной некоммерческой службой. В ближайшее время на сайте мета-машины появятся первые рекламные транспаранты, и начнется ее коммерциализация. К счастью, не за счет пользователей.
SavvySearch (http://www.colostate.edu/-dreiling/smartform.html). Эта очень эффективная поисковая мета-машина создана единственным человеком – Дэниелом Дрейлингером (Daniel Dreilinger), еще недавно студентом университета штата Колорадо, а ныне сотрудником лаборатории Массачусетского технологического института. Д. Дрейлингер увлекается музыкой, компьютерами и путешествиями. За последний год он побывал в странах Восточной Европы и в Мексике. Видимо, именно это обстоятельство сказалось на том, что SavvySearch разговаривает почти на всех европейских и множестве других языков. В частности, можно заказать поисковый интерфейс для эсперантистов. Есть здесь и русский язык – нужно только запастись шрифтами в кодировке !'OI-8 и настроить браузер на их использование.
Машина тоже относится к первой группе и запускает одновременно три автономных «ищейки». Очень удачна идея задания плана поиска с включением одной из групп поисковых машин. Всего имеется четыре таких группы:
– WebCrawler, Yahoo!, Lycos;
– Galaxy, Excite, DejaNews;
– FTPSearch95, Yellow Pages, Infoseek;
– Magellan, NlightN, PointSearch.
Согласитесь, выбор очень богатый. Но на входной странице сайта (home page) объявлено, что в настоящее время уже решены вопросы включения 29 автономных поисковых машин, включая перечисленные, и на подходе включение еще трех новейших поисковых инструментов!
Критерий поиска можно задать точно также, как в MetaCrawler. Задаются следующие типы источников и типов информации для проведения поиска: WWW, справочники частных лиц (White Pages), предприятия и организации (Yellow Pages), технические отчеты, новости, программы и архивы программ, документация, исследовательские работы, образы (images) и развлечения. В интерфейсе определяется число рефератов, возвращаемых от каждой из задействованных автономных поисковых машин: от 10 до 50. Раздельная выдача результатов поиска каждой из машин очень наглядна и дает много информации для выбора оптимальных средств.
Формат выводимых рефератов можно задать как сжатый, нормальный и расширенный. По желанию, результаты, полученные от всех задействованных машин, можно интегрировать в единый отчет. Что и говорить: замечательная мета-машина. Но интерфейс сейчас находится в состоянии бета-версии, и улучшения, наверняка, еще будут.

IBM infoMarket (http://www.infomkt.ibm.com). Система разработана и поддерживается корпорацией IBM с 1994 года. В ее основу заложена уникальная концепция, и ее нельзя отнести к какой-либо группе мета-машин. Для поиска в Internet используются ресурсы Open Text, Yahoo!, Magellan и конференции Usenet. Кроме того, поиск ведется по коммерческой сети, которая охватывает 75 информационных агентств, 300 газет, 819 бюллетеней новостей, 6882журнала и 11 млн. компаний. Для того чтобы начать поиск, нужно соотнести запрос с одной из тематических групп, среди которых: финансы и бизнес, компьютеры и телекоммуникации, отдых и развлечения, окружающая среда, медицина и биотехнологии, промышленность, Internet, правительство и законы, наука и техника, путешествия. Задав соответствующую тему и введя критерий запроса, переходим к поиску. В результате получаем страницы с найденными документами – по 25 на страницу. Результаты поиска, как нам удалось убедиться, значительно отличаются от того, что выдают другие поисковые инструменты. На этом все радости кончаются, поскольку, согласно концепции infoMarket, поиск информации проводится бесплатно, а за доступ к самому документу-источнику надо платить. Для этого используется фирменная технология IBM Cryptolope, что означает «крип-токонверт» (cryptography + envelope). Для тех, у кого есть подходящие банковские карточки и большое желание поработать с info-Market, сообщаем: заплатить можно сразу же, не выходя из поисковой системы. Есть и другие платные удовольствия: например, можно зайти в «Книжный уголок» (Book Corner), просмотреть новинки, а если что-то понравится – то и купить. Очень специальная мета-машина. AccuFind (http://nln.com). Как заявлено, мета-машина основана на новейшей технологии Net Locator с поддержкой интерфейса средствами Java. AccuFind можно было бы, без всяких сомнений, отнести ко второй группе, если бы не одна ее особенность: в самой мета-машине имеется автономное поисковое ядро, которое представляет эволюцию давно известного инструмента NlightN. Собственно, вся разработка и поддержка AccuFind выполнена компанией NlightN. При первом знакомстве машина показалась эклектичной. Сюда были привлечены в избытке, наверное, все известные методы и средства поиска. Например, кроме собственных поисковых средств мета-машина дает выходы на 31 (!) другую поисковую систему, включая все популярные и многие малоизвестные. Присутствует и тематическая классификация запросов: книги, бизнес, правительство, законы, быт, медицина, новости, документация, магазины. При задании критериев поиска можно применять логические операции AND, OR, NOT. Когда мы попытались найти конкретную информацию по ключевым словам, то уже после выполнения поиска оказалось, что мы не зарегистрировались. Пришлось пройти и это, после чего нам были выданы входное имя и пароль из пяти цифр. Результаты поиска были представлены в необычной форме. Оказалось, что сама AccuFind, а вернее ее базовая «ищейка» NlightN, ведет поиск не только по темам, но и по «пространствам»: в универсуме (то есть повсюду, где может), в базах данных, в аннотациях к новостям, в книжных хранилищах. В итоге, «кликнув» на гиперссылку «databases», получили самый обычный список найденных в этом «пространстве» рефератов. Оценить качество поиска не хватало сил и терпения, как их не хватало и для ознакомления с очень запутанными аспектами оплаты услуг AccuFind по предоставлению источников. Входной интерфейс мета-машины выполнен с явной избыточностью и дублированием элементов. Хорошо, хоть рекламы не было... Попытки выполнить поиск с помощью HotBot через интерфейс AccuFind неоднократно заканчивались неудачей, в то время как прямой выход на HotBot не вызывал никаких проблем. Выводы сделайте сами, но допускаю, что у вас могут быть и другие мнения о AccuFind.
AII-4-One (http://www.all-4оnе). Машина разработана компанией easyPage Internet Services при финансовой поддержке издания «Entrepreneur Magazine». Идеологически представляет собой несложный инструмент первой группы, который запускает для поиска одновременно четыре автономных машины: AltaVista, Yahoo!, Lycos и WebCrawler. Критерий поиска задается в интерфейсе в виде последовательности слов с предполагаемой логикой – общее OR. Можно было бы использовать как простую и быструю мета-машину, если бы не очень неудобный формат вывода результатов поиска. Экран делится на четыре малых окошка с ползунками, в каждом из которых размещены результаты работы каждой из четырех автономных поисковых машин. Нет никаких средств для совместного анализа результатов поиска и получения обобщенных результатов.
The Internet Sleuth, (http://www.isleuth.com). В буквальном переводе: «Сыщик для Internet».
Считается, что эта мета-машина обладает самым обширным тематическим поисковым интерфейсом. The Internet Sleuth разработана в 1994 году и сопровождается компанией Internet Business Connection. Многоуровневые тематические группы для поиска просто необъятны. В системе проводится поиск по 1500 базам данных. Можно включать одновременно до 10 машин из 24 имеющихся в меню, причем некоторые из перечисленных поисковых средств сами являются мета-машинами (например, SavvySearch или европейская мета-машина USE IT, которая находится на URL http://www.he.net/-kamus/useen.htm). Для каждой поисковой машины можно задать свой критерий и свое ограничение времени поиска. Критерии поиска могут содержать логические операции AND, OR, NOT и шаблоны подстановки букв и ограничения длины слов. Тематический поиск ведется по огромному перечню периодических изданий и информационных служб многих стран. Например, для группы высшего уровня «Новости» используются данные из 39 источников, каждый из которых может являться издательством многих газет и журналов. Для группы «Компьютеры» список состоит «всего лишь» из 33 источников. О степени детализации тематики говорит то, что группа «Развлечения» включает такие подразделы, как «Напитки», «Закуски», «Музыка», «Фильмы» и т. д. Еще в большей степени поражает, что для каждого вида поискового механизма приведен минимальный, но вполне достаточный индивидуальный интерфейс для поиска: окошко для ввода критерия поиска, опциональные возможности, краткие комментарии по заполнению.
Мы подумали, что когда найдется свободное время, нужно будет непременно как следует разведать пути-дорожки, по которым ходит «Сыщик для Internet».
Search.com (http://www.search.com). Мета-машина входит в состав многочисленных сайтов одной из самых больших информационных систем C|Net, которая принадлежит корпорации с этим же названием. Поисковая машина запущена в 1996 году. Ее интерфейс включает одноуровневую тематическую классификацию из 27 групп. Каждой группе соответствует свой набор периодических изданий и информационных источников, подобно тому как это сделано в The Internet Sleuth. Однако, в Search.com интерфейс приведен к единообразию и достаточно компактен. Можно использовать и прямой поиск через разного рода машины, среди которых имеются и автономные (например, Excite), и мета-машины (такие как MetaCrawler или SavvySearch). На входной странице Search.com представлены два входа в поисковые машины. Первый вход принадлежит «лидеру» текущего дня. Лидерство определяется наибольшим числом обращений к поисковому ресурсу. Совершенно очевидно, что, попав в «лидеры», поисковая машина получает приоритет и на будущее, поскольку она помещается на первый вход, который расположен выше второго. Большинство посетителей вообще не обратит внимания на второй вход. По нашим наблюдениям, постоянным лидером на сайте Search.com является AltaVista. Второй же вход, расположенный ниже, дает свободу выбора конкретной машины из десяти доступных. Входы работают независимо друг от друга, но не одновременно. Для каждого из входов можно задать формат вывода результатов: только заголовки; заголовки и URL; заголовки, URL и аннотации. Также для каждого из входов можно определить пространство поиска: WWW или Usenet. Главным достоинством Search.com является то, что она интегрирована в общую необъятную структуру C|Net. He выходя никуда из системы, проходя только через гиперссылки, можно решать самые разнообразные задачи, включая поиск информации.
All-in-One (http://www.albany.net/allinone). Довольно компактная и хорошо структурированная мета-машина, разработанная Уильямом Кроссом (William Cross), который и сейчас тщательно поддерживает ее актуальность. Последние изменения в состав интерфейса были внесены 6 ноября. Размещена на серверах компании AlbbanyNet, провайдера услуг Internet. Система представляет собой древовидную классификационную структуру, на верхнем уровне которой размещены группы: WWW, весь Internet, личные интересы, программные средства, справочники частных лиц, новости и погода, литература и другие издания, технические отчеты, документация, прочее... Уточняя содержание каждой из групп, можно попасть на следующий уровень, где расположены ссылки на поисковые инструменты. Например, раскрывая «WWW», попадаем на список, содержащий 59 различных поисковых машин. А группа «Программные средства» представлена 27 сайтами, на которых хранятся архивы программных средств. Теперь можно войти в любой из них. All-in-One не проводит никакой обработки результатов поиска и оставляет пользователя на сайте выбранной поисковой машины. Эта мета-машина – чистый представитель второй группы. Всего в ней собраны выходы на более чем 200 поисковых средств.
Машина привлекает своей логической простотой и высокой концентрацией правильных ссылок на другие поисковые ресурсы. Несколько раздражает художественное решение фона страниц WWW для этого сайта. Стилизованный под джинсовую ткань с текстурой в виде вопросительных знаков, этот фон очень утомляет зрение и затрудняет восприятие текстов.
CUSI – Configurable Unified Search Engine (http://pubweb.nexor.co.uk/public/cusi/cusi.html). Создателем и владельцем CUSI является частная британская компания NEXOR, существующая с 1990 года и ведущая разработки в области средств связи на основе международных и европейских стандартов. Мета-машина CUSI – единственная, имеющая европейское происхождение и входящая в почетный список InterNIC.
Относится к системам второй группы. Основана на двухуровневой древовидной тематической классификации. На верхнем уровне представлены следующие группы: индексы WWW, сгенерированные роботами индексы WWW, другие индексы Internet, программные средства, справочники частных лиц, документы, словари. На следующем уровне для групп определено около 60 поисковых ресурсов. Машина интересна расширенным составом поисковых средств европейского происхождения. Неплохо и то, что есть отдельная рубрика «Словари», где можно найти словарь компьютерной терминологии, словари акронимов, словарь жаргона хакеров, словари Webster's и Roget Thesaurus. Мы решили в дальнейшем исследовать эту машина более подробно.
Спасение утопающих...
За пару дней до того, как сдать этот материал в редакцию, я, к своему ужасу, обнаружил что при переустановке операционной системы случайно был уничтожен каталоге источниками и URL для этой статьи, которые я накапливал и обрабатывал в течение примерно месяца. И хотя основное тело статьи уже был готово, все равно требовалось проверить фактографию (в частности, URL) на текущий момент. Деваться некуда. Для начала зашел на старое место машины MetaCrawler, откуда меня любезно переправили на новое место, которое теперь и вы знаете. Тут, засучив рукава, я сформулировал запрос «meta-search engine» и направил его на машину, на что последовал большой список найденных материалов. Поскольку сортировка списка была выполнена в порядке убывания релевантности, далеко ходить не пришлось. На втором десятке ссылок был обнаружен сайт известной мне и до того компании InterNIC. Дальше все пошло как по маслу, поскольку там содержались URL для всех поисковых мета-машин, рассмотренных сегодня. Оставалось только посетить эти мета-машины и немного их «погонять». Так тема сама себя спасла.
Собственно, имея один-единственный универсальный поисковый ресурс – например, автономную машину, – можно последовательно выйти на любую информацию в открытой части Internet. Нужно только почувствовать, когда пора сменить инструмент...
Вообще, практически для любых поисковых работ хороши MetaCrawler и SavvySearch. Когда же речь идет о тематическом поиске с неявными критериями, лучше воспользоваться The Internet Sleuth или Search.com. Когда нужны диковинные базы данных из США, можно попробовать All-in-One, a для европейских баз – CUSI. Относительно других машин сказано достаточно; не верите – разберитесь сами.
К сожалению, лучшие мета-машины, обладая гораздо большей логической ясностью и интеллектуальной силой по сравнению с автономными, уступают последним в технической мощи. Объяснение этому эффекту простое: автономные поисковые машины, которые перелопачивают в реальном времени весь Internet, вообще не смогут работать на слабом оборудовании. Другое дело – сайт мета-машины, который при желании можно запустить на любой персоналке. Именно поэтому работа с сайтами мета-машин через плохие каналы связи может превратиться в непрерывное ожидание, что перечеркнет все интеллектуальные удобства. Тем не менее попробуйте! Мне известно (и это подтверждают мои знакомые), что поработав с MetaCrawler, не захочется менять эту машину на какую-нибудь другую.
В завершение этого обзора примите проверенные нами URL еще четырех известных поисковых мета-машин:
Link Monster: http://www.linkmonster.com
Fun City Web Search: http://www.funcity.com/search.html
Hyper News: http://union.ncsa.uiuc.edu/HyperNews/get/ www/searching.html
W3 Search Engines: http:// cuiwww.unige.ch/meta-index.html
Приятного вам плавания!