Главная arrow Предыстория arrow Классификация документов
Как начинался компьютер
Компьютерная революция
Двоичный код
Разработки военных лет
Интегральные микросхемы
Микрокомпьютер
Персоны
Сеть
Язык компьютера
Развитие ПО
Гибкие системы
Средства разработки
Информатика
Вычислительная наука
Операционные системы
Искусственный интеллект
Предыстория
Поиск
Знания и рассуждения
Логика
Робототехника
 

 
Классификация документов Печать

Классификация документов по тематикам

В этой главе мы рассматриваем задачу тематической классификации документов, т. е. автоматического определения тематики документа по заданному множеству возможных тематик.

Отличительной особенностью задачи классификации является предположение, что множество классифицируемых документов не содержит “мусора”, т. е. каждый из документов соответствует какой-нибудь из заданных тематик. Последние несколько лет этой проблеме уделялось много внимания.

Большинство предложенных методов классификации основываются на использовании классической векторной модели информационного поиска. Для описания тематик, как и для описания документов, здесь используются взвешенные списки термов (словоформ). Вес терма основывается на статистической информации о встречаемости термов в этом и, возможно, других документах.

В последние годы все больше внимания привлекают более сложные подходы. Основная идея многих из них - это снижение размерности пространства “признаков”, по которым происходит классификация документов. Начальным пространством признаков обычно является пространство термов (словоформ), которое сжимается на основе результатов анализа большой группы документов. Для проведения анализа используются различные подходы - кластеризация термов на основе их вероятностных распределений по документам, применение методов обнаружения знаний в данных (data mining) для задания правил классификации, т. д. Отметим, что несмотря на улучшение качества классификации, практическое применение подобных подходов зачастую осложнено их большой вычислительной трудоемкостью, влекущей низкую производительность.

Одним из перспективных подходов является применение латентно-семантического анализа (LSA) для выявления структуры семантических взаимосвязей между используемыми словами за счет статистического анализа большой группы документов. Это позволяет автоматически различать смысловые оттенки одного и того же слова в зависимости от контекста его использования. Отметим, что выявление семантической структуры при помощи латентно-семантического анализа происходит полностью автоматически, т. е. не требуя никакого составления словарей вручную.

Классификация с учетом семантической близости слов

Все методы классификации используют один и тот же обобщенный алгоритм, который состоит из следующих этапов:

  • задания/построения описаний для всех тематик
  • построения описания рассматриваемого документа
  • вычисления оценок близости между описаниями тематик и описанием документа и выбора наиболее близких тематик

Различия же между методами определяются реализацией этих этапов.

Описания тематик и документов

Предлагаемый подход основан на предположении, что тематика документа определяется его словарным запасом. Мы исключили из рассмотрения так называемые  стоп-слова, т. е. наиболее употребительные слова, которые могут использоваться в документах любой тематики, такие как предлоги, местоимения и т. п. Мы также полагаем, что различные синтаксические формы одного и того же слова не отражаются на общей тематике документа и, следовательно, могут представляться единой базовой словоформой ( термом).

В качестве описания документа используется все множество встречающихся в документе термов, за исключением общеупотребительных.

Тематики также представляются в системе наборами термов, однако эти наборы содержат не все употребляющиеся в данной тематике слова, а только небольшое их подмножество, которое выбирается автоматически.

Построение описаний тематик

Тематика задается относительно небольшим множеством относящихся к ней документов. По результатам анализа этого множества документов, а также множества документов задающих остальные рассматриваемые тематики, автоматически строится описание тематики в виде набора термов. Целью анализа является выявление отличий этой тематики от других и выбор термов, наилучшим образом подчеркивающих особенности этой тематики.