Войти



Советуем прочесть

Последние материалы

Золотые партнеры:

сотовые телефоны sony ericsson

Серебряные партнеры:

карбоновый обогреватель

Бронзовые партнеры:

Правила индексирования документов дескрипторами информационно-поискового тезауруса
Статьи
Автор: Лукашевич Н.В.   
02.10.2011 15:57

Правила индексирования документов дескрипторами информационно-поискового тезауруса.

Рассмотрим особенности применения информационно-поисковых тезаурусов для ручного индексирования документов экспертами-индексаторами.

Правила индексирования документов регулируются несколькими ГОСТами (ГОСТ 7.66-92; ГОСТ 7.59-2003). Приведем некоторые нормативные положения, регулирующие процесс ручного индексирования.

Под индексированием понимается выражение содержания документа и/или смысла информационного запроса на информационно-поисковом языке. Для обеспечения эффективного информационного поиска основное содержание документа (а при необходимости - его форму и назначение) следует представлять с необходимой и достаточной полнотой и точностью в поисковом образе документа (ПОД) в виде терминов индексирования.

Индексирование следует проводить на основе непосредственного анализа документа с учетом характера информационно-поискового массива, элементом которого становится ПОД, характера информационных потребностей пользователей данной информационно-поисковой системы (ИПС), в соответствии с общими принципами индексирования и особенностями их применения в конкретной организации.

Одним из основных методов индексирования является координатное индексирование, то есть индексирование, цель которого состоит во всестороннем отражении содержания документа или запроса путем включения в поисковый образ всех необходимых для этого терминов индексирования.

Метод координатного индексирования базируется на представлении о том, что основное смысловое содержание документа может быть с достаточной степенью точности и полноты выражено набором ключевых слов, содержащихся в индексируемом тексте.

Координатное индексирование может быть свободным или нормализованным (контролируемым). Свободное координатное индексирование означает индексирование ключевыми словами, выбранными непосредственно из полного текста документа и представленными в ПОДе в терминологии автора без нормализации, с минимальным контролем над лексикой и без учета того, какие ключевые слова уже использовались ранее для индексирования таких же или близких по смыслу документов.

При нормализованном индексировании поисковый образ документов составляется из дескрипторов нормативного списка - тезауруса.

Процесс нормализованного индексирования включает следующие этапы, которые осуществляют в указанной ниже последовательности:

-        анализ и определение содержания документа как объекта индексирования;

-        выбор понятий, характеризующих основное содержание документа;

-        выбор терминов индексирования для обозначения понятий;

 

-        формирование поискового образа документа из терминов индексирования.

Число характеристик и понятий, отраженных в ПОД, определяет его полноту и является важнейшим показателем качества индексирования. В ПОДе необходимо отразить все понятия, которые могут иметь ценность для пользователей системы. В документе может быть выявлено более одной темы из сферы интересов пользователей.

Число терминов индексирования, приписываемых одному документу, определяется содержанием документа. Ограничение числа терминов должно быть основано на содержательном отборе наиболее важных понятий.

Полнота индексирования, принятая в каждой информационно-поисковой системе, определяется ее функциональным назначением. Объем документа также сильно влияет на полноту индексирования. Необходимо учитывать указанные факторы и на их основе производить экспертный отбор понятий из документа, не стремясь включить в ПОД все упомянутые в нем понятия.

Поскольку понятия, упоминаемые в документе, могут быть разной значимости относительно его основного содержания, в ГОСТе 7.66-92 обсуждаются возможности проставления весов для дескрипторов индексатором: информационный вес термина индексирования отражает в ПОД важность данного понятия для данного документа. Число градаций информационного веса определяется потребностями конкретной поисковой системы. Важными категориями дескрипторов в документе, которые следует различать, являются:

-        понятия, выражающие главную тему документа;

-        понятия, выражающие побочные темы документа;

-        понятия, использованные в документе как вспомогательные для изложения его содержания.

Допускается использовать указатель отрицательного веса, которым помечают термины индексирования для указания на то, что данное понятие не рассматривается в документе.

 

В качестве примера инструкции, регулирующей индексирование по конкретному информационно-поисковому тезаурусу, рассмотрим положения, принятые в информационной службе ООН, в которой для индексирования используется тезаурус UNBIS (UNBIS Guidelines, 2009).

В документах службы отмечается, что для определения основного содержания документа не является достаточным просматривание только заголовков документов. Нужно дополнительно обращать внимание на заголовки подразделов, на рефераты, содержание, названия глав, введение и заключение, приложения.

Индексаторы должны выбирать понятия, которые наилучшим образом выражают основное содержание текста. В дополнение к определению основных  тем  документа,  процесс   индексирования   включает  определение подтем, которые могут быть полезны в поиске специальной информации или для уточнения каких-либо аспектов основных тем документа. При этом индексатор должен учитывать интересы потенциальных клиентов и запросы, которые они могут задать. Индексаторы должны задавать следующие вопросы:

-        Какие понятия документа могут быть интересны пользователям информационной системы?

-        Какие термины индексирования и их комбинации лучше всего отвечают основным направлениям поиска? Индексаторы должны учитывать, что в тексте могут быть просто упоминаемые сущности или примеры и не индексировать такие сущности. Для этого полезно задавать себе следующие вопросы:

-        Является ли эта сущность темой документа, или это простое упоминание?

-        Найдет ли пользователь, ищущий по этой теме, достаточно информации в тексте, чтобы оправдать выбор этого понятия как темы текста?

При переводе сформулированной темы на язык дескрипторов тезауруса индексаторы должны выбрать наиболее соответствующий и наиболее специфичный дескриптор тезауруса. При этом индексатор должен осознавать, что слова документа могут отличаться от терминов тезауруса. Например, документ может обсуждать проблемы коренных народов Америки (indigenous peoples of the Americas), но наиболее подходящий дескриптор тезауруса будет AMERINDIANS, а не INDIGENOUS PEOPLES. Документ может относиться к статистическим данным, но дескриптор STATISTICAL DATA тезауруса UNBIS используется только тогда, когда документ действительно использует статистические данные, иначе используется дескриптор STATISTICS. Документ, обсуждающий нефть (oil), может использовать термин oil industry, но индексатор должен знать, что в тезаурусе UNBIS дескриптор OIL INDUSTRIES относится только к промышленности по извлечению масла из растений, а для переработки нефти нужно использовать дескриптор PETROLEUM INDUSTRY. Индексаторы должны проверять комментарии к дескрипторам, чтобы удостовериться, что они проиндексировали текст правильно.

Документ информационной службы ООН обращает внимание на сложность индексирования больших документов, в которых главная тема документа развивается большим количеством более специфичных тем, которые также хотелось бы отразить при индексировании документа. С 1999 г. индексаторы могут применять ранжированное индексирование, присваивая ранг 1 понятиям основной темы документа и величину 2 вторичным сущностям. Дескрипторов 1-го уровня обычно не более 5.

 

Дескрипторы 2-го уровня коррелируют с фактором полноты индексирования, обычно повышают полноту поиска, отражают большую специфичность и показывают несколько аспектов основной темы.

Таким образом, мы видим, что ручное индексирование документов по информационно-поисковому тезаурусу является сложной процедурой, требующей очень хорошего знания структуры и состава тезауруса.

Серьезной проблемой ручного индексирования является также субъективность, непоследовательность индексирования: один индексатор может поставить в соответствие тексту дескриптор более низкого уровня, другой -дескриптор более высокого уровня.

Кроме того, определенную сложность представляет собой последовательный учет тематической структуры связного текста: один индексатор может счесть обсуждаемое в каком-то фрагменте текста важным и отразить в приписываемых ключевых словах или дескрипторах тезауруса, другой индексатор для того же или похожего текста посчитает эту «локальную тему» неважной и не отразит ее в терминах индексирования.

В результате исследований, проходивших в рамках известного Крэнфилдского эксперимента в начале 60-х годов, было показано, что значительная доля неудач поиска связана с неправильным индексированием документа и что до трети неудач поиска можно было бы избежать, если бы индексаторы индексировали последовательным образом. Точнее, индексаторы допускали ошибку в каждых пяти документах из ста, и эта ошибка обычно состояла в неуказании релевантного понятия (Tonta, 1992), то есть полнота индексирования была недостаточной.

Кроме того, данные других экспериментов по анализу неудач в информационном поиске в 60-70-х годах обнаружили, что у неподготовленного пользователя имеются проблемы с использованием нормализованных словарей (тезаурусов) и языков запросов, что приводит к большому количеству неудач поиска. Большинство пользователей не знали роли нормализованных словарей в информационных системах, не понимали структуру нормализованного индексирования и языков индексирования. Пользователи пытались выразить свои запросы собственными словами, которые не совпадали с приписанными документу дескрипторами, что и вызывало неудачи поиска.

Взаимодействие всех этих факторов приводит к тому, что серьезные усилия по разработке и ведению информационно-поисковых тезаурусов, обеспечению качественного ручного индексирования не привели к лучшим показателям информационного поиска по сравнению с поиском по словам (Salton, 1986; Sparck Jones, 1981). Вместе с тем, использование комбинированных технологий, сочетающих пословный поиск и поисковые образы документов, содержащих дескрипторы тезауруса, приводит к значительному улучшению качества поиска.