Войти



Советуем прочесть

Последние материалы

Серебряные партнеры:

Бронзовые партнеры:

Использование информационно-поисковых тезаурусов в автоматической обработке текстов
Статьи
Автор: Лукашевич Н.В.   
03.10.2011 15:41

Использование информационно-поисковых тезаурусов в автоматической обработке текстов

Основной целью разработки традиционных информационно-поисковых тезаурусов является использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. При этом сам процесс индексирования по такому тезаурусу базируется на лингвистических, грамматических знаниях, а также знаниях о предметной области, которые имеются у профессиональных индексаторов текстов. Индексатор сначала должен прочитать текст, понять его и затем изложить содержание текста, пользуясь дескрипторами, указанными в информационно-поисковом тезаурусе. Индексатор должен хорошо понимать всю терминологию, использованную в тексте, - для описания основной темы текста ему понадобится значительно меньшее количество терминов.

При автоматической обработке текстов нет человека-посредника между текстом и описанием его содержания в виде дескрипторов. Есть только автоматический процесс и тезаурус, который должен содержать и те знания, которые содержатся в традиционных информационно-поисковых тезаурусах, и те знания (насколько это возможно), которые использует индексатор для определения основной темы текста.

Таким образом, информационно-поисковый тезаурус, предназначенный для автоматической обработки текстов, должен содержать значительно больше информации о языке предметной области. Кроме того, отношения между терминами, указанные в тезаурусе, должны быть значительно более формализованы для использования их в автоматических режимах.

В следующих разделах мы рассмотрим эти проблемы подробнее.

Наибольшая часть примеров, приводимых нами в следующих статьях, будет основываться на тезаурусе EUROVOC. Мы рассматриваем этот тезаурус как типичный пример информационно-поискового тезауруса, при разработке которого многие решения обусловлены направленностью на ручное индексирование документов и удобством для человека-индексатора, и, по большей мере, наш выбор этого тезауруса как источника примеров обусловлен следующими обстоятельствами:

-тезаурус  EUROVOC - это  рабочий  инструмент  информационных служб парламентов европейских государств; - имеется русскоязычный перевод тезауруса, что позволяет использовать русскоязычные эквиваленты дескрипторов как примеры;

-тезаурус EUROVOC - это один из немногих тезаурусов, который реально используется в настоящее время в России для ручного индексирования документов.