1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /157, 1996 г./ | Бонус | Поиск  

Тема номера

AltaVista: взгляд с высоты

Игорь Гордиенко


© 2004, Еженедельник «Компьютерра» | http://www.computerra.ru/offline
Этого материала на сайте "Компьютерры", к сожалению, нет

Чудовищные размеры Internet и объемы информации, хранящейся на WWW-сайтах Сети, не оставляют никаких надежд на сколько-нибудь эффективный ручной поиск нужных данных. На практике уже не удается создать полезные каталоги даже для персонального использования. Информация меняется очень быстро, и отслеживать эти изменения сложно. Без поисковых машин не обойтись.

Сейчас AltaVista является бесспорным лидером как по техническим характеристикам, так и по популярности среди поисковых машин для Internet. Не счесть хвалебных отзывов в прессе, трудно перечислить награды и призы, завоеванные системой и, соответственно, компанией Digital. Вот лишь некоторые из них. Приз "За выдающийся уровень сервиса" вручен журналом "Internetworld Magazine" на конференции Internet World Conference, Сан-Хосе (Калифорния), 30 апреля 1996 года. Награда в объявленном CjNet конкурсе "Наилучшая поисковая машина для Internet", 29 апреля 1996 года. Награда журнала "PC-Online" "Лучший WWW-сайт года", врученная на выставке СеВГГ'96, Ганновер, 14 марта 1996 года.

Всего лишь около года назад – летом 1995 года – в исследовательских лабораториях компании Digital, расположенных в Пало-Альто (Калифорния), был начат проект, который и привел к созданию самой эффективной поисковой машины AltaVista. Исследователи объединили систему быстрого обхода (crawling) узлов сети WWW с мощным средством индексирования текстовых структур. Уже осенью машина заработала и построила первый большой индекс со страницами WWW, Еще два месяца ушло на внутреннее тестирование. За это время индекс разросся до 16 млн. полнотекстовых страниц WWW. А15 декабря 1995 года сайт поисковой машины AltaVista aftavista.digital.com стал доступен для всех желающих. В первые 3 месяца рабочей эксплуатации сайта ежедневно обрабатывалось в среднем по 2 млн. запросов. К маю объем индекса увеличился до 30 млн. Web-страниц, а количество ежедневных запросов увеличилось до 15 миллионов! Удивительная эффективность AltaVista сочетается с почти аскетичным интерфейсом, лишенным всяких наворотов, а поэтому очень удобным. Освоить работу с поисковой машиной можно при любом уровне компьютерной грамотности. Нужно только немножко потренироваться в составлении лаконичных и точных запросов на поиск.

А что внутри?

Все программное обеспечение поисковой машины разработано в исследовательских лабораториях Digital. При написании программ использовался язык Си в операционной среде Digital UNIX. В полной мере задействовано преимущество многозадачной 64-разрядной архитектуры серии Alpha.

Все программно-аппаратное обеспечение AltaVista представлено в виде нескольких непрерывно функционирующих систем. Самыми главными, как уже было сказано, являются кролер и обработчик основного индекса поисковой машины. Им помогают WWW-сервер, который обеспечивает внешний интерфейс AltaVista в Internet, а также программа индексации изменений WWW и сервер изменений, который непрерывно поставляет отслеженные изменения. Все это слаженно и безостановочно работает уже около года.

 

 Программа-кролер (crawler), названная Scooter, которая ежедневно обшаривает 3 млн. страниц на WWW-сайтах и тащит их в систему индексации, является самой быстрой из разработок подобного рода. А программа индексирования способна "переварить" в течение 1 часа до 1 Гбайт текстовой информации на собранных Web-страницах. Индексатор проводит постоянное упорядочивание информации общим объемом около 40 Гбайт и проводит параллельную обработку множества поисковых запросов.

Не меньше впечатляет аппаратура, обеспечивающая мощь AltaVista. Вот, собственно, сам Web-сервер поисковой машины. Он построен на AlphaStation 500 с 256 Мбайт оперативной памяти и дисковым накопителем на 4 Гбайт. Сервер, как ему и положено, обслуживает весь внешний трафик к сайту и от него. Кроме того, он переправляет внешние поисковые запросы к WWW-индексатору и индексатору изменений.

Система индексирования страниц WWW построена на базе AlphaServer 8400 5/300. Это самый мощный компьютер из собранных когда-либо в Digital. Он содержит 10 процессоров, имеет 6 Гбайт оперативной памяти и укомплектован дисковой памятью объемом 210 Гбайт на массивах технологии RAID. Система проводит непрерывное индексирование массива объемом около 40 Гбайт, при этом время выполнения поисковых запросов на таком массиве не превышает 1 секунды. Программа Scooter работает на отдельном компьютере DEC 3000/900 Alpha Workstation. Его оперативная память составляет 1 Гбайт, а RAID-массив жестких дисков имеет емкость 30 Гбайт. С этой станции разбегаются по Сети "роботы", которые хватают и тащут на AltaVista Web-страницы.

Индексатор изменений расположен на AlphaStation 250 4/266 с памятью 196 Мбайт и диском на 13 Гбайт. Функцией этого компонента является постоянное индексирование изменений, обнаруженных в WWW-страницах. Объемы изменений, конечно же, меньше, чем в основном индексе, но работает индексатор изменений в режиме непрерывной нагрузки – Сеть всегда живет и развивается.

И, наконец, на компьютере Alpha-Station 400 4/233 с RAM на 160 Мбайт и жестким диском на 24 Гбайт размещен сервер изменений. Он накапливает изменения, поступающие из Internet, и отправляет их на индексатор изменений.

Не просто, а очень просто!

Получив доступ к WWW-сайту AltaVista, вы попадаете на входную страницу (homepage). Функциональные кнопки представлены на ней в виде элементов пейзажа с горной вершиной на горизонте, укутанной снегами.

Это, надо думать, и есть та самая высота, с которой так хорошо просматривать Internet. Нажав первую слева кнопку OnSite Knowledge, можно познакомиться с биографией и характеристиками AltaVista в объеме большем, нежели в данной статье. С помощью следующих двух кнопок можно выбрать режим поиска – продвинутый (Advanced) или упрощенный (Simple). (В данном обзоре поиск Advanced не обсуждается. Тем, кто на практике освоит упрощенный поиск, не составит никаких проблем перейти к более совершенному и эффективному методу.) Далее следует кнопка Products, нажав которую, попадаете насайтаНа-vista.software.digital.com. Здесь можно познакомиться с коллекцией программ компании Digital, а если необходимо, то и приобрести что-нибудь. Наконец, последняя, правая кнопка всем нам очень знакома – Help. В соответствии с выбранным режимом поиска можно посмотреть один из двух вариантов HTML-файла помощи.

Ниже функциональных кнопок расположены окошки меню для установки опций. Первая опция – зона проведения поиска. В работающей версии AltaVista доступны две зоны: по сайтам WWW и по материалам пользовательских групп новостей Usenet. Общее число групп (конференций), отслеживаемых с помощью AltaVista, достигает 14тысяч, здесь представлено около 3 млн. информационных источников. Вторая опция определяет форму представления результатов поиска: компактная, стандартная или детализированная.

Теперь, когда установлены режимы поиска и опции, предстоит самое важное: надо задать критерий поиска. Ничего особо трудного здесь нет: для составления критерия используется очень простой язык, полное описание которого можно найти, нажав клавишу Help, Диалекты языка для упрощенного и продвинутого поиска несколько

Каков вопрос, таков

Рассмотрим, как формируются критерии упрощенного поиска. Критерий может представлять собой последовательность слов, фраз, управляющих символов и ключевых слов. Например, будем искать материалы по критерию:

Sun Oracle "network computer" В этом критерии Sun и Oracle – слова, a "network computer" – фраза. Слово является непрерывной строкой из букв или цифр. Любые другие символы, в том числе, пробел, знаки пунктуации, являются разделителями слов и анализу поисковой машиной не подвергаются. Стандартным способом определения фразы является заключение группы слов в двойные кавычки. Фразу можно построить и с помощью точек с запятыми, вот так:

network;computer

Нужно заметить, что если в элементе критерия есть хоть одна прописная буква, то ищется полное совпадение {case sensitive) для всех букв слова, если же применены только строчные буквы, то совпадение будет отмечено и для строчных, и для прописных букв в источнике. Например, для критерия Sun будут отобраны материалы, содержащие только Sun, а вот для критерия sun в список отобранных попадут документы со словами Sun, SUN, sUN и как угодно далее. Для критерия начального поиска рекомендуется употреблять строчные буквы.

Элементы критерия можно дополнительно настраивать на прием документа или отказ от него. Делается это так:

+Sun -Microsoft

По этому критерию будут отобраны не все документы, содержащие слово Sun, а только те из них, в которых нет слова Microsoft.

Есть еще одно удобное средство для написания критериев – то, что называется по-английски wildcard, т.е. знак замены группы символов. Как и в MS-DOS, это знакомая нам звездочка *. Так, если будет задан критерий comput*, то в результате поиска будут отобраны документы, содержащие computer, computing, computation, и т.д. Для повышения эффективности поиска с шаблоном * его использование разрешается после не менее чем 3 значащих символов – букв или цифр. В процессе поиска шаблон может быть сопоставлен только со строчными буквами количеством от нуля до пяти. Прописные буквы и цифры не дадут совпадения.

AltaVista проводит упорядочивание списков найденных материалов, поскольку эти списки бывают очень длинны. Основные критерии перемещения ссылок на источники в ближние ряды следующие:

 – критерию поиска удовлетворяет текст в заголовке Web-страницы или в названии статьи Usenet;

 – фактическое или близкое совпадение фрагментов текста с критерием;

 – документ неоднократно удовлетворяет критерию.

Как было подчеркнуто выше, при поиске информации в Internet все столкнутся с проблемой ее избытка. Чтобы в некоторой мере снять эту проблему и сузить область поисков, AltaVista предлагает специальный набор ключевых слов, применение которых покажем на примерах.

anchor:click-here применение в критерии ключевого слова anchor, за которым следует двоеточие, приведет к тому, что в результате поиска будут обнаружены все WWW-страницы, на которых есть активные гипертекстовые зоны с надписью click-here.

host:digital.com – в этом случае будет произведен отбор документов, в которыхdigital.com представлено как имя Web-сервера.

image:comet.jpg – в результате поиска будут представлены страницы, на которых упомянуты картинки comet в формате JPEG.

title: "IBM Systems Journal" будут отобраны все материалы, в заголовке которых обозначено "IBM Systems Journal".

Здесь приведен далеко не весь список ключевых слов. А для поисков в зоне Usenet набор ключевых слов вообще другой.

Изложенного вполне достаточно для первого сеанса работы с AltaVista. Теперь осталось нажать на клавишу Submit, расположенную справа от окошка с критерием поиска, запустив тем самым поисковый механизм.

Панацеи не бывает

Уж как хороша AltaVista! Но и она не всемогуща. Нередки случаи, когда существующие сайты не обнаруживаются. Причин здесь много.

Во-первых, сайт может быть новым или недавно модифицированным. Обычно проходит, как заявляет Digital, "несколько дней", пока AltaVista доберется до новых сайтов. На практике же мои знакомые из московского академического института ждали около двух месяцев, прежде чем их сайт появился на AltaVista. Оказалось, что программа-кролер в то время еще не запускалась в автоматическом режиме, что и привело к задержкам.

Во-вторых, на сервере может быть установлен шлюз, брандмауэр или другая защита от проникновения. Так, сайты многих корпораций недоступны для поисковых систем. Близким является случай, когда Web-сервер настаивает на том, чтобы информация о нем не включалась в базы данных поисковых машин. Иногда сайты закрыты для всех программ-"роботов".

Гораздо сложнее оказываются ситуации, когда сайт лишен внешних гипертекстовых ссылок. В этом случае он оказывается как бы изолированным от общей среды WWW, и добраться до него невозможно, если только не обратиться к нему напрямую. Бывают случаи, когда изолированными от общей среды оказываются целые "кланы" сайтов. Они взаимно связаны ссылками, но ни на один из них нет ссылок извне.

Наконец, случаются просто технические проблемы с доступом к серверам, когда из-за загруженности или неполадок поисковые машины просто не могут прорваться к WWW-страницам.

Процесс регистрации нового WWW-сервера можно ускорить. Для этого AltaVista предлагает специальную страницу. Порядок регистрации очень прост. Нужно только указать в специальном окошке универсальный указатель ресурсов (URL) нового сервера и направить запрос на поисковую машину AltaVista. После этого страницы Web-сайта будут захвачены и добавятся к индексу поисковой машины. Конечно, всякое может случиться. Но в любом случае последует сообщение о результатах регистрации. В случае успешного подключения URL нового сайта станет доступным для программы Scooter, которая свяжет все ссылки и проиндексирует через некоторое время все содержимое.

Периодически проверяя сайты, Scooter может обнаруживать, что некоторые страницы исчезли. В этих случаях автоматически уничтожается связанное содержимое в индексе AltaVista. Поисковый механизм полностью соответствует стандарту ограничений для роботов (Robots Exclusion Standard), который является своего рода джентльменским соглашением об ограничении доступа к информации на серверах Internet. Стандарт предлагает метод ограничения доступа программ-кролеров к определенным областям структур данных.

Будущее AltaVista

В последний год ярко обозначилась тенденция к "локализации" и адаптации многих эффективных решений и технологий, найденных в Internet, к условиям корпоративных сетей типа интранет, к локальным сетям небольших предприятий и даже для персональных приложений.

Недавно Digital объявила о том, что выпустила бета-версию пакета My Computer Private extension (PX), основанного на апробированной теперь технологии AltaVista. Пакет предназначен для контекстного поиска в корпоративных базах данных, в локальных сетях, просто в файловых системах на изолированных компьютерах. My Computer PX разработан для платформ Intel с Windows 95 и Windows NT. Поисковая машина будет автоматически создавать полнотекстовый индекс всех фай л о в HTM L и всех текстовых фай лов 140 различных форматов, которые расположены в пределах указанной зоны поиска. РХ полностью совместим с программами Microsoft Word, Excel, PowerPoint, Exchange, а также Eudora Mail и многими другими. Пакет начнет продаваться как промышленное изделие в начале осени этого года.

Кроме того, Digital планирует выпустить в конце лета бета-версию поисковой машины AltaVista для интранет. Работать она будет в среде UNIX для станций Alpha и Windows NT для аппаратной основы Intel.

По мнению Digital, выпуск новых вариантов поисковых машин позволит сделать технологию AltaVista по-настоящему масштабируемой, универсальной и не зависящей от характера среды хранения данных.


1995 | 1996 | 1997 | 1998 | 1999 | 2000 | 2001 | 2002 | 2003 | 2004 | Оглавление текущего номера /157, 1996 г./ | Бонус | Поиск  

© 2004, Издательский дом «Компьютерра» | http://www.computerra.ru
Телефон редакции: (095) 232-22-61
E-mail редакции: inform@computerra.ru