| Использование информационно-поисковых тезаурусов в автоматической обработке текстов |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 03.10.2011 15:41 | |||
Использование информационно-поисковых тезаурусов в автоматической обработке текстовОсновной целью разработки традиционных информационно-поисковых тезаурусов является использование их единиц (дескрипторов) для описания основных тем документов в процессе ручного индексирования. При этом сам процесс индексирования по такому тезаурусу базируется на лингвистических, грамматических знаниях, а также знаниях о предметной области, которые имеются у профессиональных индексаторов текстов. Индексатор сначала должен прочитать текст, понять его и затем изложить содержание текста, пользуясь дескрипторами, указанными в информационно-поисковом тезаурусе. Индексатор должен хорошо понимать всю терминологию, использованную в тексте, - для описания основной темы текста ему понадобится значительно меньшее количество терминов. При автоматической обработке текстов нет человека-посредника между текстом и описанием его содержания в виде дескрипторов. Есть только автоматический процесс и тезаурус, который должен содержать и те знания, которые содержатся в традиционных информационно-поисковых тезаурусах, и те знания (насколько это возможно), которые использует индексатор для определения основной темы текста. Таким образом, информационно-поисковый тезаурус, предназначенный для автоматической обработки текстов, должен содержать значительно больше информации о языке предметной области. Кроме того, отношения между терминами, указанные в тезаурусе, должны быть значительно более формализованы для использования их в автоматических режимах. В следующих разделах мы рассмотрим эти проблемы подробнее. Наибольшая часть примеров, приводимых нами в следующих статьях, будет основываться на тезаурусе EUROVOC. Мы рассматриваем этот тезаурус как типичный пример информационно-поискового тезауруса, при разработке которого многие решения обусловлены направленностью на ручное индексирование документов и удобством для человека-индексатора, и, по большей мере, наш выбор этого тезауруса как источника примеров обусловлен следующими обстоятельствами: -тезаурус EUROVOC - это рабочий инструмент информационных служб парламентов европейских государств; - имеется русскоязычный перевод тезауруса, что позволяет использовать русскоязычные эквиваленты дескрипторов как примеры; -тезаурус EUROVOC - это один из немногих тезаурусов, который реально используется в настоящее время в России для ручного индексирования документов.
|