Главная arrow Вычислительная наука arrow История поисковых систем
Как начинался компьютер
Компьютерная революция
Двоичный код
Разработки военных лет
Интегральные микросхемы
Микрокомпьютер
Персоны
Сеть
Язык компьютера
Развитие ПО
Гибкие системы
Средства разработки
Информатика
Вычислительная наука
Операционные системы
Искусственный интеллект
Предыстория
Поиск
Знания и рассуждения
Логика
Робототехника
 

 
История поисковых систем Печать

«Как можно было бы найти путь к вашему дому, если бы он не был отмечен на карте или занесен в каталог, и наткнуться на него можно было бы только случайно?» (Пол Глистер, «Компьютерная грамотность»)

Всемирная Паутина не похожа ни на что, доселе известное. В виртуальной реальности Паутины мы можем только слушать и читать, и это ограничение заставляет нас искать новые пути взаимодействия с Сетью.

Например, если бы я хотел купить книгу, я пошел бы в местный книжный магазин, выбрал бы нужную, расплатился и пошел домой. Обычно у книжных магазинов есть вывеска, и они находятся на виду, поэтому найти их не составляет труда.

Но в киберпространстве нет вех. Передо мной только экран компьютера. Каким-то образом мне нужно найти, где продается нужная мне книга. На экране нет дороги, которая провела бы меня по Сети (я могу идти наугад, но это не верный путь; да и в этом случае надо знать, откуда начинать двигаться). Иногда все очевидно: напечатайте название книжной лавки, добавьте .COM (например, barnesandnoble + .com) и, скорее всего, вы попадете, куда и хотели. Но что, если магазин узкоспециализированный, и у него нет веб-сайта с адресом, который можно легко угадать?

Решением проблемы станет использование поисковой системы. Сегодня это один из самых широко используемых методов навигации в киберпространстве. Учитывая количество информации, доступ к которой дает хорошая поисковая система, можно сказать, что вы работаете одновременно с «Желтыми Страницами», карманным гидом и дорожным атласом.

Поисковые системы могут предоставить гораздо больше информации, чем просто URL-ссылка на веб-сайте. Поисковики помогают найти тематические обзоры, сравнить цены и даже узнать, не было ли жалоб у покупателей на нужный товар или его производителя. Если ввести слово “books” в строку поиска Google, система выдаст около 9270000 ссылок. Если мы уточним запрос, введя в строку поиска “books, Internet”, то получим в ответ около 6070000 ссылок. Мы можем сузить запрос до «books, Internet, search engines» и получим приблизительно 803000 ссылок на результаты поиска. Если мы знаем автора книги, скажем, Дэнни Салливана, то мы введем в поисковую строку «books, Internet, search engines, sullivan» и Google найдет около 10900 страниц, содержащих ключевые слова нашего запроса (конечно, результаты будут меняться день ото дня).

Для многих использование поисковых систем стало привычным делом, и это можно считать большим успехом для технологии, которой нет и 20 лет. Но как появились поисковые системы? Какова история этого изобретения, позволяющего нам проникнуть в киберпространство вплоть до самых удаленных его точек? Возникновение Интернет и Всемирной Паутины.

В 1957 году после того, как СССР запустило первый искусственный спутник Земли, США созвали Управление Перспективного Планирования Научно-исследовательских Работ (сокращенно ARPA) как часть Министерства Обороны. Целью его являлось установление господства США в военных отраслях науки и техники.

Частью задачи ARPA было подготовить план для США по удерживанию контроля над ракетами и бомбардировщиками после ядерной атаки. В процессе работы возникла сеть APRANET, или Интернет. Первые соединения через APRANET были проведены в 1969, а в октябре 1972 о работе над APRANET было рассказано всему миру.

И только спустя 20 лет Интернет перестал быть сетью Министерства Обороны и стал Всемирной Паутиной, то есть таким, каким мы знаем его сейчас.

По мнению Tim Berners-Lee, создателя Всемирной Паутины, Интернет – это сеть сетей. «В своей основе она состоит из компьютеров и кабелей. Сеть – это абстрактное, воображаемое пространство, заполненное информацией. В Сети вы находите компьютеры, а в Паутине обнаруживаете документы, звуки, видео и другие виды информации. В Сети соединениями служат провода между компьютерами; в Паутине же это гипертекстовые ссылки. Паутина существует благодаря программам, позволяющим компьютерам взаимодействовать. Паутина невозможна без Сети. Паутина сделала Сеть полезной, ведь людям нужна информация, но они не хотят знать о несущих ее компьютерах и проводах».

Когда информация стала доступна по всему миру, возникла очевидная необходимость упорядочить ее.

Archie, Veronica и Jughead, или История поисковых машин, начиная с Ривердейла

Самый первый поисковый инструмент Интернета назывался Archie. (Название произошло от искаженного слова archive, «архив»). Он был создан в 1990 Аланом Эмтаджем, студентом Монреальского Университета им. Мак Гилла. Программа скачивала списки файлов, расположенные на публичных анонимных FTP сайтах, создавая базы данных имен файлов, по которым можно было производить поиск.

Archie индексировал компьютерные файлы, а Gopher – текстовые документы. Gopher был создан Марком Мак Кахиллом в Университете Миннесоты. Будучи текстовыми файлами, большинство сайтов Gopher впоследствии стали страницами Паутины.

Две другие программы, Veronica и Jughead, искали файлы, сохраненные в поисковом индексе Gopher. В Veronica можно было осуществлять поиск по ключевому слову среди названий документов, перечисленных в Gopher. Jughead позволял получать информационное меню с различных серверов Gopher.

Я, Робот

В 1993 студент МИТ Мэтью Грей изобрел первого робота, который индексировал страницы Интернет – World Wide Web Wanderer. Первоначально программа позволяла пересчитывать веб-сервера, измеряя масштабы Паутины. World Wide Web Wanderer запускали ежемесячно с 1993 по 1995 годы. Позже его использовали для получения URL при формировании первой базы данных Веба – Wandex.

По определению The Web Robots FAQ, робот – это программа, автоматически прочесывающая структуру гипертекста при получении документа и последовательно проходящая по всем ссылкам в этом документе. Иногда сетевых роботов называют wanderer (скитальцами), web crawler (ползунами) или spider (пауками). Эти названия могут создать ложное представление о том, что программы сами по себе перемещаются между сайтами подобно вирусу, но на самом деле это не так. Робот просто посещает сайты, запрашивая с них документы.

Первоначально роботы создавали некое неудобство для серверов, поскольку они требовали много сетевых ресурсов, и порой серверы не выдерживали нагрузки. Новейшие роботы не снижают пропускной способности сервера и используются для построения индексов поисковых машин.

В 1993 Мартин Костер создал ALIWEB. ALIWEB позволял владельцам сайтов подавать заявки на индексацию в поисковых машинах. По мнению Костера, ALIWEB был поисковой системой, основанной на автоматизированном сборе мета-данных для Сети.

Финансирование поисковых систем становится прибыльным бизнесом

В конце концов, когда инвесторы сочли, что из Интернета можно извлекать выгоду, началось финансирование развития поисковых машин, и разработка поисковиков стала прибыльным бизнесом.

В 1993 году шесть студентов Стэнфорда представили Excite. Программа использовала статистический анализ слов в тексте, чтобы облегчить процесс поиска. В течение года Excite был усовершенствован и вышел онлайн в декабре 1995 года. Сейчас он является частью компании AskJeeves.

Сеть Galaxy возникла в 1994 году как часть поискового консорциума MCC в Университете Техаса в Остине. Впоследствии сеть у Университета перекупили. Она побывала в руках нескольких компаний и на сегодня она является отдельной корпорацией. Galaxy была создана как алфавитный перечень, сочетающий элементы интерфейса поисковика Gopher и протокола telnet в дополнение к строке веб-поиска.

Джерри Янг и Дэвид Фило создали Yahoo в 1994 году. Проект начался с составления каталога их любимых веб-сайтов. Единственное, что отличало этот перечень от других, был комментарий к каждой ссылке URL. Через год разработчики получили финансирование и создали корпорацию Yahoo.

В том же 1994 была представлена программа WebCrawler. Это была первая поисковая машина, которая индексировала весь текст веб-сайтов.

В 1994 году Lycos представил поисковую машину, предлагающую наряду с результатами поиска ссылки на темы, связанные с поисковым запросом. В 1996 году это уже была обширная поисковая система, индексирующая более 60 миллионов документов, самая крупная на тот момент. Как и многие другие поисковые системы, Lycos был разработан в университетской среде доктором Майклом Молдином в Университете Карнеги Меллона.

Поисковый сервис Infoseek был запущен в 1995 году. Он не привнес ничего нового в систему поиска. Сейчас он принадлежит Компании Уолта Диснея и находится на домене Go.com.

AltaVista также начала работать в 1995 году. Эта поисковая машина первой предложила расширенную систему поиска и принимала языковые запросы на так называемом «естественном языке» – например, могла обработать запрос «Как пройти в библиотеку?», вместо «библиотека». Система также предлагает возможность поиска изображений, музыки и видеофайлов.

Система Inktomy возникла в 1996 году в Университете Беркли. В июне 1999 года Inktomy ввела поиск по каталогу на основе «метода индукции». По мнению компании, «индуктивный метод принимает во внимание аналитический опыт человека и применяет его, анализируя ссылки, частоту посещений и другие параметры, чтобы определить, какие сайты наиболее посещаемы и продуктивны». Yahoo приобрело систему Inktomy в 2003 году. Поисковики AskJeeves и Northern Light были запущены в 1997 году.

Google был запущен в 1997 году Сергеем Брином и Лари Пейджем как часть исследовательского проекта Стэнфордского Университета. При ранжировании результатов запроса в выдаче Google учитывает количество внешних ссылок на ресурс, или цитируемость. В 1998 начали работать MSN-Search и Open Directory (DMOZ). База Open Directory, если верить информации на ee главной странице, «это самый большой и всеобъемлющий каталог ресурсов Сети. Он разработан и поддерживается обширным сообществом добровольных составителей». DMOZ претендует на звание «наиболее полного каталога сайтов Сети». Каталог регулярно обновляется вручную.