Главная arrow Предыстория arrow Информационный поиск
Как начинался компьютер
Компьютерная революция
Двоичный код
Разработки военных лет
Интегральные микросхемы
Микрокомпьютер
Персоны
Сеть
Язык компьютера
Развитие ПО
Гибкие системы
Средства разработки
Информатика
Вычислительная наука
Операционные системы
Искусственный интеллект
Предыстория
Поиск
Знания и рассуждения
Логика
Робототехника
 

 
Информационный поиск Печать

Исследования в области информационного поиска начались уже более тридцати лет назад. За это время из узкоспециализированной тематики информационный поиск превратился в одну из ключевых областей информатики. Полноценное введение в задачи информационного поиска невозможно уместить в рамки этой работы. Поэтому в этой главе мы только кратко охарактеризуем общий контекст исследований.

Задачи информационного поиска

Центральная проблема информационного поиска формулируется просто -- помочь пользователю найти ту информации, в которой он заинтересован. К сожалению, описать информационные потребности пользователя совсем не так просто. Обычно это описание формулируется как некоторый запрос, представляющий из себя некоторый набор ключевых слов, характеризующий потребности пользователя.

Классическая задача информационного поиска, с которой и началось развитие этой области, -- это поиск документов, удовлетворяющих запросу, в рамках некоторой статической (на момент выполнения поиска) коллекции документов. Например, эта задача решается в рамках большинства современных справочных систем, таких как справочная система по операционной системе Windows.

Однако за тридцать лет исследований список задач информационного поиска значительно расширился и теперь включает вопросы моделирования, классификации и кластеризации документов, проектирования архитектур поисковых систем и пользовательских интерфейсов, языки запросов, и т. д.

Кроме классической задачи информационного поиска в этой работе мы также затрагиваем следующие задачи:

  • Кластеризация документов. Целью кластеризации документов является автоматическоое выявление групп семантически похожих документов среди заданного фиксированного множества документов. Отметим, что группы формируются только на основе попарной схожести описаний документов, и никакие характеристики этих групп не задаются заранее.
  • Классификация документов. В отличии от задачи кластеризации, целью этой задачи является определение для каждого документа одной или нескольких из заранее заданных категорий, к которым этот документ относится. Особенностью задачи классификации является предположение, что множество классифицируемых документов не содержит “мусора”, т. е. каждый из документов соответствует какой-нибудь из заданных категорий. Частным случаем задачи классификации является задача тематической классификации. Здесь каждая категория -- это некоторая тематика, а цель классификации -- определить тематику документа.
  • Фильтрация документов. Как и в задаче классификации, целью задачи фильтрации является разбиение множества документов на категории. Однако этих категорий только две -- те документы, которые удовлетворяют заданному критерию, и те, которые ему не удовлетворяют. Одной из наиболее важных частных случаев является задача тематической фильтрации документов, т. е. автоматического определения документов, соответствующих заданной тематике, за счет отсева прочих документов.

Несмотря на некоторую схожесть формулировок этих задач, тем не менее они сильно различаются. Как следствие, методы успешно применяемые для решения одной из этих задачах, зачастую показывают не лучшие результаты при использовании их для решения другой задачи.

Поиск в Интернет

Бурный рост объема информации в Интернет делает поиск незаменимым методом доступа к этой информации. Можно выделить две основные формы поиска в Интернет:

  • Использование поисковых систем, которые собирают сведения о (части) доступных в Интернет ресурсах и организуют поиск по этой информации, как по полнотекстовой базе данных. Примерами таких систем являются - Altavista, Google, Yandex, и т. д.
  • Использование Интернет-каталогов, в которых информация об избранных ресурсах Интернет классифицирована по тематическим признакам. Такие каталоги существуют не только в электронном виде (List или Yahoo!), но также издаются и ввиде печатных изданий - таких как, например, “Желтые страницы Интернет'”.

Природа Интернет обуславливает ряд важных факторов, которые необходимо учитывать при рассмотрении задач поиска:

  • Огромный объем доступной информации
  • Высокий процент временной информации
  • Неконтролируемое качество информации
  • Разнородность информации

Кроме различных форматов представления информации, к этой группе особенностей относится также и то, что для представления информации используется множество различных языков и даже алфавитов.

Поисковые системы

Огромный объем доступной в Интернет информации делает поисковые системы незаменимым инструментом. Количество существующих поисковых систем исчисляется сотнями и большинство из них принадлежит к одному из двух классов:

  • Многоцелевые системы
  • Специализированные системы

Специализированная поисковая система производит поиск по значительно меньшему количеству ресурсов, чем любая популярная многоцелевая поисковая система. Однако, этот факт имеет ряд положительных следствий для специализированных систем.

  • Информация, не относящаяся к специализации данной поисковой системы, не попадает в ее индекс.
  • Возможно применение более вычислительно трудоемких методов поиска.
  • Возможно привлечение экспертов в соответствующей области, а также поддержка сервиса рекомендаций ресурсов пользователями системы. А как следствие, повышение качества и полноты коллекции.

Поэтому, зачастую поиск в соответствующей запросу специализированной поисковой системе быстрее и лучше удовлетворяет информационные потребности пользователя.

В то же время, из-за специализации таких поисковых систем, выбор конкретной системы для выполнения поиска является довольно сложной задачей. Для решения этой проблемы, предлагает возможность поиска по построенным вручную описаниям специализированных систем. Такой подход очень трудоемок и не всегда работает из-за ограниченности построенных вручную описаний. Автоматическое построение таких описаний является предметом современных исследований. Отметим, что в рамках этой работы мы не рассматриваем системы и методы поиска, учитывающие информацию о структуре данных, такие как методы работы со слабоструктурированной информацией.

Индексы поисковых систем

Важнейшим отличием поисковых систем для поиска в Интернет от классических систем информационного поиска является необходимость обслуживания всех запросов без реального доступа к ресурсам на момент выполнения запроса. Иначе необходимо либо хранить свежую локальную копию всех ресурсов (что слишком накладно), либо посещать ресурсы во время выполнения запроса (что слишком медлено).

Поэтому, в системах поиска в Интерент все запросы обслуживаются на основе содержимого индекса, содержащего некоторые описания известных данной поисковой системе ресурсов. Для сбора сведений о доступных ресурсах, которая потом используется для построения индекса, обычно используются так называемые сетевые роботы - программы, которые, начиная с некоторой Интернет-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки на новые ресурсы из получаемых документов.