1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /171, 1996 г./ | Бонус | Поиск  

Дела

Internet: поиски листьев в лесу

Игорь Гордиенко


© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

"…То полуобморочное число

Фигур, учетверенных зеркалами,

Теснящихся и тающих теней,

Растущих и сливающихся тропок".

X. Л. Борхес. "Ожидание"

Проблема

Отправным моментом этой статьи послужило мое искреннее, но не столь безобидное заблуждение, что Internet можно структурировать. Формализованное, схематичное, удобное для манипуляций сознание с негодованием воспринимает Internet как нечто хаотичное и неподконтрольное. Естественное раздражение вызвало у меня желание немедленно «навести порядок», хотя бы локально – для себя и друзей. Как станет понятно из последующего изложения, а главное – из практики, все эти порывы – не более чем химеры персонального сознания. Всемирная Сеть в некоторых пределах допускает наблюдение феноменов, ее можно изучать в лучшем случае так, как Жорж Кювье изучал растения и животных. Хотя это тоже не спасает... Любая публикация о ресурсах Internet устаревает уже в день написания. Несомненно, большое уважение вызывает двухтомник «Желтые страницы Internet», вышедший в издательстве «Питер Пресс». Но, как показывает практика, и содержание толстых книжек с каждой минутой теряет актуальность.

Вот какими фактами я могу подтвердить приведенные выше наблюдения и рассуждения. Мне нужно было найти место регистрации новых сайтов, где отслеживались бы ежедневные количественные изменения. Сначала в общей статье немалого объема (114 Кбайт) lib-www.ucr.edu/pub/ navigato.html нашлись ссылки на мета-поисковые машины, то есть на машины, которые дают доступ одновременно к множеству поисковых средств. Одно из них, Internet Sleuth («Сыщик для Internet»), было упомянуто как средство, которое дает выход на несколько сотен поисковых ресурсов. Однако гипертекстовая ссылка на Sleuth не сработала: появилось сообщение, что связь прервана по инициативе сайта Sleuth; это повторялось многократно. Тогда я запустил любимую «искалку» MetaCrawler, которая находится на metacrawler.cs.washing-ton.edu и о которой я узнал из списка поисковых ресурсов известной системы C|Net. MetaCrawler выпускает в Сеть одновременно девять таких мощных ищеек, как AltaVista, Lycos, Yahoo!, Info-seek, Excite, Inktomi, Open Text, Web Crawler и Galaxy. С помощью MetaCrawler мне удалось обнаружить новое местоположение Sleuth: www.isleuth.com. Оказалось, что новый адрес появился всего лишь за день до того, как я пытался выйти на Sleuth! Пришлось побегать по огромной входной странице, чтобы найти выход на меню выбора поисковых машин. И вот удача: нашел Spectre Searcher,

специализированную машину для поиска адресов в Internet. Однако на старом месте Spectre Searcher тоже не оказалось – сайт переехал. Здесь все было сделано грамотно, и после нескольких секунд ожидания меня перенаправили на новое место сайта: www.sserv.com. Наконец-то появилась некоторая информация. В течение пятницы 24 октября в Spectre Searcher зарегистрировались 253 новых WWW-сайта, а в воскресенье 27 октября – 119. Служба работает круглосуточно и без выходных. Побочным, но полезным результатом этих путешествий стало то, что я обнаружил новую интересную поисковую систему Link Monster с адресом www.linkmonster.com. Это повествование приведено только для того, чтобы убедить вас в одном: без навыка использования поисковых машин в Internet делать нечего. Прошу обратить внимание, что данные о новых сайтах приведены только по одной, пока еще малоизвестной регистрационной службе из сотен существующих. Книги, советы друзей, записные книжки – все это не помогает. Даже на долговременную память нет надежды. Только поиск в реальном времени... А здесь успех зависит от навыков, способностей и удачи.

Еще одним поводом для подготовки этого материала послужила статья о поисковой машине AltaVista, опубликованная в «Компьютерре» от 5 августа. Я получил немало комментариев по поводу качества поиска, которое обеспечивает эта машина. Вывод напрашивается сам собой: каждый, кто хочет уверенно чувствовать себя в Internet, должен владеть не одним инструментом, а целым набором. Ведь отвертки бывают самые разные...

Таксономия

Несмотря на то что все, сказанное выше, должно было придать логический ход повествованию, нужно все-таки сообщить некоторые формальные данные. Воспользуемся несложной классификацией поисковых средств Internet, предложенной Хансом Арентсом (Hans Arents) в работе «A Selection of Internet Search Tools» на сайте www.mtm.kulevenen.ac.be/-hca/. Итак, все поисковые ресурсы делятся на следующие группы.

Поисковые машины (Search Engines) – самостоятельно осуществляют поиск документов в Internet по элементам содержания.

Мета-поисковые машины (Meta-Search Engines) – средства для поиска документов в Internet с параллельным проходом несколькими поисковыми машинами.

Каталоги объектов (Object Directories) – предназначены для поисков в WWW сайтов с заданным содержанием.

Справочники персоналий и групп (White Pages) – поиск телефонов, электронных и географических адресов частных лиц.

Справочники компаний, организаций, учреждений (Yellow Pages) – поиск данных о частных, государственных и международных компаниях, предприятиях, организациях и учреждениях. Объектами поиска являются не только внешние атрибуты, телефоны, электронные и географические адреса, ной данные о деятельности, юридические и финансовые характеристики и т. п.

Архивы программ (Software Archives) – специализированные средства поиска программных средств по названиям, функциям, платформам и другим признакам.

Справочники связности ресурсов (Link Databases Search) – инструменты для нахождения связей URL с другими ресурсами Internet.

Базовая информация Internet (Background Information Search) – поиск специализированной информации о структуре и функциях Internet, например, FAQ (Frequently Asked Questions), RFC (Request For Comment), FYI (For Your Information), спецификаций, стандартов и т. д.

Другие информационные ресурсы (Miscellaneous Information Search) – поиск данных в словарях, глоссариях,тезаурусах(таких, например, как словари акронимов вычислительной техники, словари Webster, энциклопедия Britannica), библиотеках, архивах и т. п.

Можно, конечно, долго спорить, насколько ортогонально пространство, введенное на данной таксономии. Если вас это действительно беспокоит, то обратитесь к X.Арентсу по указанному выше адресу. В конечном счете любая классификация субъективна. Будем преследовать более приземленные цели. Попробуем дать краткие характеристики, а главное – адреса поисковых ресурсов первой группы.

Поисковые машины

Рассмотрим характеристики «джентльменского набора» поисковых машин, которые присутствуют в интерфейсах всех информационных систем и всегда фигурируют в аналитических обзорах.

AltaVista (www.altavista.digi-tal.com). Открыта для массового использования корпорацией Digital в декабре 1995 года. Эту машину достаточно полно характеризует статья в «Компьютерре» от 5 августа. AltaVista до сих пор остается образцовой машиной, хотя явную конкуренцию ей в последнее время составляют HotBot, новые услуги системы Yahoo!, а также Infoseek Ultra, все еще пребывающая в стадии бета-версии. Напомним основные черты AltaVista. Система позволяет проводить поиск как в WWW (по умолчанию), так и в группах Usenet. После ввода ключевого слова или фразы возвращается число найденных документов. Далее следует список рефератов этих документов. Каждый реферат начинается с активного(гипертекстового) заголовка документа и завершается активным URL. Реферат также содержит первые несколько фраз из текста документа, размер файла, дату индексирования в базе AltaVista. Список рефератов ранжирован по признакам наибольшего соответствия критерию поиска (свойство релевантности) и дат происхождения и индексирования документов. Одно из главных достоинств: после выполнения поиска окно с заданным критерием не меняется. Во-первых, можно увидеть предыдущий вопрос, а во-вторых, модифицировать его, не делая повторного набора. AltaVista предлагает использование логических операторов AND, OR, NOT и специального оператора NEAR, который дает истинное значение, если операнды находятся в тексте один от другого не далее чем за 10 слов. Фразы в критерии формируются заключением последовательности слов в двойные кавычки. Используются специальные префиксы (+) и (-) для того, чтобы подтвердить обязательность наличия или отсутствия конкретного ключевого слова в объектах поиска. AltaVista способна распознавать строчные и прописные буквы. Режим расширенного поиска предполагает обязательное использование логических операторов. Кроме того, в этом режиме можно ограничить пространство поиска, задавая начальную и конечную даты происхождения документа, а также признаки ранжирования списка рефератов. Мы специально напомнили основные характеристики AltaVista, поскольку в настоящее время эта машина – своего рода эталон.

 

 

 

Excite (www.excite.com). Первоначально появилась в сентябре 1993 года в Стэнфордском университете как проект Architect. В настоящее время является собственностью компании Excite. Машина позволяет вести поиск в WWW, Usenet, рекламных группах Usenet и собственной базе обзоров WWW. Excite ориентирована на поиск информации в более ограниченном круге источников, нежели AltaVista. Интерфейс Excite может показаться очень примитивным особенно для поиска в Usenet. Возможны два режима поиска: по ключевым словам и по концепции (Concept). Согласно материалам Excite, в первом случае выбираются документы, которые содержат слова из критерия, а во втором – документы, которые объясняют слова критерия. Независимо от способа поиска первые несколько десятков найденных документов практически всегда одни и те же. По умолчанию установлен концептуальный поиск в WWW. Критерий вводится, как линейный текст на английском языке. Разницы между прописными и строчными буквами нет. Специальный синтаксис и операторы в режиме простого поиска не предусмотрены. В результате поиска выводится список рефератов, ранжированный в порядке убывания релевантности. Каждый реферат содержит показатель релевантности в процентах, гипертекстовый заголовок, дату индексации документа и аннотацию. Уточняющий поиск можно вести, изменяя критерий, который сохраняется в окне в начале страницы. Можно также воспользоваться клавишей Advanced Search и получить подсказку. В этом режиме можно пользоваться логическими операторами AND, OR, AND NOT, унарным NOT, операторами предшествования ADJ и префиксами (+) и (-). При проведении поиска на конференциях Usenet оказалось, что все рефераты относились к документам не менее чем четырехдневной давности.

HotBot (www.hotbot.com). Машина основана на технологии NOW (Network оf Workstations) параллельных вычислений, которая создана совместными усилиями компаний HotWired и Inktomi. Ядро системы индексирования ресурсов Internet Inktomi было разработано в университете в Беркли (Калифорния) при спонсорском участии ARPA (Advanced Research Projects Agency) и Sun Microsystems. В основе HotBot лежит неограниченная масштабируемость. В «горячем режиме» рабочие ресурсы расширяются добавкой новых компьютеров, модулей памяти, дисковых накопителей и т. д. Кроме специализированной базы индексации Web-страниц, разработанной Inktomi, используется распределенная СУБД Informix для хранения запросов пользователей и рекламы. Объем индекса HotBot растет экспоненциально. Как заявлено на входной странице HotBot, на 29 октября было проиндексировано более 54 млн. документов Internet.

Интерфейс HotBot оформлен современно. При наличии множества функций здесь нет ничего лишнего, реклама не навязчивая. В простейшем варианте поиска вводится цепочка ключевых слов, которые могут рассматриваться как самостоятельное слово, как фраза, как личное имя и как URL. Есть две возможности усиленного поиска. Первая из них – модификация запроса. Критерий может быть усилен дополнительными ключевыми словами, которые присоединяются к основной части с помощью предикатов «дОлжно», «следует» (в смысле «хорошо бы») и «не дОлжно». Таких расширений может быть до двух, для каждого из них – свое окно и набор предикатов. Кроме того, каждое из таких расширений тоже может трактоваться как слово, фраза, личное имя и URL. Вторая возможность усиления и уточнения результатов – средство Expert. С его помощью можно сузить временные границы пространства поиска, задав команду «когда-нибудь» (по умолчанию), «после даты» и «за последние (дни, месяцы, годы)». Можно задать тип среды, в которой нужно вести поиск: JavaScript, Java, Audio, Image, Acrobat, Shockwave, VRML, Extensions (типы файлов) и даже тип Smiley:-)). Кроме того, можно задать тип пространства, в котором проводится поиск: «где угодно», «в киберпространстве» и в «географическом пространстве». И, наконец, можно определить количество рефератов, выводимых на странице, – вплоть до того, что прокатать весь список, как ролик. HotBot стал доступен только в июне этого года, поэтому итоги подводить еще рано. Но похоже, что HotBot – машина завтрашнего дня.

 

 Infoseek Guide (guide-p.in-foseek.com). Система поисковых средств, поддерживаемая компанией Infoseek (Санта-Клара, Калифорния). Компания основана в январе 1994 года Стивеном Киршем (Steven Kirsch), создателем компаний Frame Technology и Mouse Systems. Infoseek позволяет вести поиск в WWW, группах Usenet, собственном подмножестве сайтов WWW, отдельной базе WWW для FAQ и в других средах. По умолчанию Infoseek ищет в WWW, используя ключевые элементы. Различает прописные и строчные буквы. Фраза образуется заключением цепочки слов в двойные кавычки. Можно использовать префиксы (+) и (-). При поиске игнорируются слова типа «and», «or», «but» и т. п. Результаты выводятся в порядке убывания релевантности. Реферат состоит из гипертекстового заголовка, URL, аннотации и размера файла-источника. Кроме того, указывается степень релевантности источника запросу по стоградусной шкале. Каждый реферат сопровождается маркером типа «источник» и «среда». Infoseek Guide в настоящее время может работать на немецком, французском, испанском и японском языках. Главное достоинство Infoseek Guide заключается в том, что она удобна для работы в Usenet, в чем мы убедились на собственном опыте. В реферат для найденного Usenet-документа включаются заголовок, имя и e-mail-адрес отправителя, первые строчки послания и ссылка на группу, где обнаружено сообщение. Последнее особенно важно, поскольку можно сразу же перейти в группу интересов. Поисковая машина, к сожалению, содержит огромное количество мигающей рекламы.

Как было отмечено, уже почти полгода длится бета-тестирование новой системы Infoseek Ultra. Именно поэтому мы не будем подробно ее описывать – в промышленной версии, возможно, что-то изменится. Конечно, она производит великолепное впечатление: скорость обработки самых сложных запросов невероятно высока, база индексации включает более 50 млн. документов. Тот, кого заинтересовала эта информация, может обратиться на http://ultra.infoseek.com. Несмотря на состояние бета-версии C|Net включила Infoseek Ultra в набор поисковых ресурсов. Кстати, рекламы в бета-версии нет.

Lycos (www.lycos.com). Разработана в университете Карнеги-Меллон и в настоящее время является собственностью компании Lycos. Этой машине скоро три года, к ней многие привыкли. Но с нашей точки зрения, некоторые решения уже устарели: элементы интерфейса избыточны, отсутствует единообразие, работает не слишком быстро. В режиме простого поиска ищет документы, в которых встречаются любые слова из критерия. Фразы не конструируются, прописные и строчные буквы не различаются. В дополнительных возможностях поиска можно задать ограничение на количество совпадающих слов критерия. Это помогает сузить область поиска или решить проблему неоднозначного написания слова. Регулируется степень релевантности: есть пять градаций. Можно установить количество рефератов, выводимых на странице (от 10 до 40), задать степень детализации реферата (в самом сжатом виде он будет состоять только из показателя релевантности – от 0,0 до 1,0), активного заголовка и URL. Несколько странно формулируются названия сред, в которых можно вести поиск: WWW, звуки (Sounds), картинки (Pictures) и местоположения (The Site by Object). Много динамичной рекламы. При отработке запросов связь несколько раз обрывалась, чего не случалось на других машинах.

Open Text (www. open-text, com). Система разработана канадской компанией Open Text из Торонто, которая существует с 1991 года. Отделения компании работают в Беннокбруке (Иллинойс, США) и в Сен-Галлене (Швейцария). В компании работает 250 сотрудников, в январе 1996 года акции компании стали свободными. Open Text была объявлена как система с большими возможностями, по текущему развитию претендующая на первые места. Однако поисковая база, охватывающая только WWW, недостаточно велика. Существует два режима поиска: простой и усиленный. По умолчанию применяется простой поиск. Критерий строится как последовательность ключевых слов. Для их соединения можно использовать либо общее AND, либо общее OR. В режиме усиленного поиска можно задавать более сложные логические конструкции, операторы типа NEAR. Можно также регулировать количество документов, выводимых при поиске. Open Text дает чистые и полные результаты. Реферат каждого найденного документа включает активный заголовок, аннотацию, показатель релевантности, размер файла источника и URL.

WebCrawler (www.webcraw-ler.com). Одна из первых универсальных поисковых машин для WWW. В январе 1994 года студент Брайан Пинкертон (Brian Pinkerton) разработал ее как курсовой проект в университете Сиэтла (штат Вашингтон). Б.Пинкертон разработал индексатор страниц WWW для личного пользования, а его друзья сделали пользовательский интерфейс. Эта программа неожиданно стала очень популярной, и в апреле того же года WebCrawler содержал индексы уже 6 тыс. сайтов WWW. Содержание системы оказалось не по карману университету, и ее купил провайдер America Online, хотя и после этого она осталась свободна для доступа. В настоящее время проводит поиск на той части WWW, которая отслеживается в базах данных самой America Online. Многие считают, что этого явно недостаточно. Пользоваться системой WebCrawler очень просто. Задаются ключевые слова, которые могут быть связаны логическими операциями AND и OR. Допускается скобочная запись выражений. Количество рефератов на странице регулируется: можно задать 10, 25 или 100. Реферат состоит из активного заголовка, аннотации и URL. Имеется также указатель степени релевантности в стоградусной шкале. Как недостаток отмечается невысокое качество поиска.

Yahoo! (www.yahoo.com). Система поддерживается одноименной компанией, являющейся по большей части собственностью холдинга Softbank. В течение этого года Yahoo! из архаичной автономной поисковой машины превратилась в мощную и сложную сервисную и рекламную службу для Internet. Многие специалисты вообще не считают Yahoo! поисковой машиной. Действительно, если у нее есть собственный автономный поисковый механизм, то ее интерфейс больше соответствует информационной системе уровня America Online или CompuServe. Кроме собственных средств поиска, Yahoo! дает выход на поисковые машины AltaVista, WebCrawler, HotBot, Lycos, Infoseek, Excite, DejaNews. Кроме того, можно использовать информационные базы для детей и подростков Yahooligans! for Kids, a также персонализированную поисковую систему My Yahoo!, на которую мы с удовольствием подписались. Кроме нескольких сайтов в США, серверы Yahoo! есть в Канаде, Франции, Германии, Японии и Великобритании. Работа ведется на соответствующих языках.

Собственный поисковый механизм Yahoo! ведет поиск в WWW, группах Usenet, по адресам e-mail и в многочисленных информационных массивах самой Yahoo! В критериях поиска можно использовать операторы AND и OR, можно задавать ключевые слова как полные строки или подстроки поиска. Регулируется количество рефератов, выводимых на одну страницу: 10, 25, 50 и 100. Дополнительное удобство – задание глубины поиска во времени: за последний день, за неделю, за месяц и за три года, то есть с начала существования системы. Yahoo! является системой для массового пользователя. Она не проводит ранжирования списка рефератов по релевантности. Ей удобно пользоваться для поиска спортивных событий, новостей, развлечений, прогнозов погоды и т. д.

 

 

Сравнения, выводы и еще кое-что...

Формальные результаты сравнения свойств всех рассмотренных систем, кроме HotBot, приведены в таблице. HotBot не включена в таблицу по причине нетипичности ее решений, которые не позволяют разместить ее в пространстве признаков других поисковых машин. Надо сказать, что все попытки найти хотя бы две совпадающие системы формализации даже для самых известных машин не имели успеха. Поэтому таблица – только намек на истинные свойства. Все публикуемые рейтинги поисковых машин тоже очень субъективны и отражают заинтересованность владельцев машин. Например, Web-Crawler постоянно занимает первые места в рейтингах America Online, поскольку она является собственностью этого провайдера. Все сторонние наблюдатели придерживаются по этому поводу совершенно противоположного мнения.

Пару слов насчет рекламы. Как правильно объясняют ситуацию хозяева HotBot: либо смиритесь с рекламой в WWW как с неизбежным малым злом, либо столкнетесь с бОльшим злом – платными услугами, что, впрочем, тоже не гарантирует вам покоя. Свято место пусто не бывает...

Мои личные рекомендации по использованию автономных поисковых машин таковы. Если вам нужно вести эффективный профессиональный поиск, лучше использовать машины AltaVista, HotBot и Infoseek Ultra (пусть и в бета-стадии). При этом можно весьма быстро сужать пространство, внося поправки и уточнения в критерии и условия поиска в режиме on-line. Для работы с такими ресурсами Internet, как необъятные конференции Usenet, следовало бы выбрать Infoseek Guide. Здесь, на мой взгляд, этой машине нет равных. А если речь идет о специальных базах данных для развлечений, игр, спорта, книг, журналов, вкусной еды...не обойтись без Yahoo! Но я все-таки предпочитаю пользоваться любимым MetaCrawler. О мета-машинах для поиска в Сети разговор пойдет в следующий раз. Еще раз подчеркиваю: этой статьей я собирался довести до вашего сведения только то, что в Internet все непрерывно меняется. И если вы обнаружите несоответствие приведенных здесь сведений и реальных фактов, отнеситесь к этому спокойно.

А чтобы вы не скучали до нашей следующей встречи, вот еще адреса некоторых ищеек, которые классифицируются как автономные машины. Все URL доступны по протоколу HTTP.

The Electric Library: www.elibra-ry.com

IBM Infomarket: www.infomar-ket.ibm.com

Four 11: www.four11.com

GTE SuperPages: superpa-ges.gte.net

WhoWhere?: www.whowhere.com

Disinformation: www.disinfo.com

BigFoot: www.bigfoot.com

AccuFind: nln.com

BigBook: www.bigbook.com

On'Village: www.onvillage.com

DejaNews: search.dejanews.com

Magellan: searcher.mckinley.com

WWW Worm: wwww.cs.Colorado.edu/wwww

TradeWave Galaxy: galaxy.einet.net

EuroFerret: www.muscat.co.uk

 

 


1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /171, 1996 г./ | Бонус | Поиск  

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru