Главная arrow Предыстория arrow Поиск документов
Как начинался компьютер
Компьютерная революция
Двоичный код
Разработки военных лет
Интегральные микросхемы
Микрокомпьютер
Персоны
Сеть
Язык компьютера
Развитие ПО
Гибкие системы
Средства разработки
Информатика
Вычислительная наука
Операционные системы
Искусственный интеллект
Предыстория
Поиск
Знания и рассуждения
Логика
Робототехника
 

 
Поиск документов Печать

Поиск документов заданной тематики в Интернет

Здесь рассматривается задача сбора информации об Интернет-ресурсах, относящихся к заданной тематике. Эта проблема актуальна при решении множества прикладных задач, таких как, например, построение тематических каталогов типа Yahoo! или Dmoz.

Близкой задачей является задача автоматического сбора информации о существующих Интернет-ресурсах при создании индексов многоцелевых поисковых систем, таких как, например, Altavista, Google или Яндекс.

Для решения задач, связанных со сбором информации о существующих ресурсах Интернет, используются так называемые сетевые роботы -- программы, которые, начиная с некоторой Интернет-страницы, рекурсивно обходят ресурсы Интернет, извлекая ссылки на новые ресурсы из получаемых документов.

Ключевым вопросом при создании интеллектуальных роботов является используемая стратегия обхода, т. е. критерий выбора следующего ресурса для посещения из множества уже известных роботу, но еще не посещенных ресурсов. Поскольку посещение всех Интернет-страниц не представляется возможным из-за огромного объема и быстрой изменяемости доступной в Интернет информации, то стратегия обхода определяет также какие именно ресурсы удастся посетить (за конечное время). Естественно, что кажется разумным в первую очередь посещать наиболее “полезные” ресурсы. “Полезность” ресурса определяется той задачей, для достижения которой создается робот.

Например, робот, который собирает информацию о ресурсах для поисковой системы, заинтересован в обнаружении максимального количества разнообразных ресурсов. Подобные роботы зачастую используют в качестве оценки “полезности” ресурса глубину URL, т. е. количество промежуточных каталогов, упоминающихся в URL между именем Интернет-узла и именем самого ресурса. Чем больше глубина, тем ниже важность соответствующего ресурса. Такой подход позволяет быстро посетить стартовые и близкие к ним страницы на большом числе Интернет-узлов.

Интуитивно кажется очевидным, что страница, на которую ссылаются много различных страниц в Интернет, более важна, чем та, на которую мало ссылок. А также, что ссылку из авторитетного источника типа Yahoo! стоит оценивать выше, чем ссылку с чьей-то персональной страницы. Эти соображения и используются, например, в алгоритме сетевого робота Google, что позволяет максимизировать количество обнаруженных наиболее цитируемых ресурсов.

В контексте задачи поиска документов заданной тематики, главной целью соответствующего сетевого робота является обнаружение максимального количества тематически релевантных ресурсов. Таким образом, в качестве оценки ожидаемой ``полезности'' ресурса выступает оценка его ожидаемой близости к искомой тематике. Для вычисления этой оценки робот использует информацию о тематической релевантности уже обнаруженных страниц.

Мы занимались этой задачей в приложении к проблеме построения тематических коллекций для проекта OASIS. Поэтому мы предполагали, что окончательное решение о тематической релевантности обнаруженного ресурса производится клиентом нашего робота, т. е. коллекцией. Однако, для снижения нагрузки на клиента, робот может рекомендовать не все обнаруженные ресурсы, а производить предварительный, “грубый” отсев заведомо нерелевантных документов.

Архитектура сетевого робота

Поскольку основным предметом нашего исследования является использование информации о тематике для выбора специализированной стратегии обхода и методы отсева ``мусора'', то мы ограничимся лишь кратким описанием базовой архитектуры сетевого робота, выделив только затронутые в рамках этой работы подсистемы.

Документ из Интернет сначала попадает в подсистему сбора документов (Harvester), которая передает его подсистеме анализа документов (Document Analyser), где строится описание ( профайл) документа. Далее подсистема оценки релевантности (Document Evaluator) вычисляет “грубую” оценку близости документа к тематике клиента. Если эта оценка превышает некоторый порог рекомендации, то документ рекомендуется клиенту робота.

Отметим, что окончательное решение о релевантности документа принимается самим клиентом, а сетевой робот производит только грубый отсев заведомо неподходящих документов. Клиент имеет возможность асинхронно информировать робота о вычисленных им ``точных'' оценках близости документа к искомой тематике. Сетевой робот использует эту информацию для автоматического уточнения вычисляемых оценок.

Порядок обхода документов WWW определяется порядком ссылок в очереди URL для посещения (URL Database), а также необходимостью соблюдать “этику сетевых роботов”. Новые URL попадают в очередь в результате анализа уже посещенных документов.

Оценка тематической близости

Для каждого из посещаемых документов сетевой робот вычисляет ``грубую'' оценку близости документа к тематике, заданной клиентом. Эта оценка в дальнейшем используется для выполнения двух задач:

  • Уточнения используемой стратегии обхода Интернет.
  • Отфильтровывания мусора, то есть уменьшения количества нерелевантных документов, рекомендуемых клиенту.

Используемый метод вычисления “грубых” оценок основывается на методе вычисления расстояний в рамках векторной модели документов, широко используемой в различных задачах информационного поиска.

Уточнение тематического фильтра

В процессе работы робот может автоматически уточнять используемый фильтр с целью улучшить качество “грубых” тематических оценок, учитывая дополнительную информацию, передаваемую клиентом. Эта информация представляет собой данные о более “точных” (по мнению клиента) оценках тематической близости рекомендованных документов.

Отметим, что автоматическое изменение фильтра может повлечь не только изменение значимости уже используемых в фильтре термов, но также и добавление новых термов.

Стратегия обхода Интернет ресурсов

Большинство сетевых роботов не могут посещать все доступные в Интернет ресурсы из-за ограниченности доступных роботу аппаратных и сетевых ресурсов, и то, какие именно ресурсы будут посещены, определяется применяемой стратегией обхода. Естественно, что робот должен стараться использовать такую стратегию, которая максимизирует общую ``полезность'' всех посещенных ресурсов.

Поскольку, в нашем случае, “полезность”, т.е. тематическую релевантность ресурса, окончательно определяет клиент робота, то главной задачей применяемой стратегии обхода является выбор такого порядка обхода известных роботу ресурсов, при котором за минимальное время будет обнаружено максимальное число документов, релевантных тематике клиента.