Войти



Последние материалы

Золотые партнеры:

Купить шины Tigar. Автомобильные шины купить.

Серебряные партнеры:

лечение зубов

Бронзовые партнеры:

Общественно-политический тезаурус в сравнении с традиционными информационно-поисковыми тезаурусами
Статьи
Автор: Лукашевич Н.В.   
08.11.2011 17:56

Общественно-политический тезаурус в сравнении с традиционными информационно-поисковыми тезаурусами

К началу 2010 г. объем тезауруса РуТез составляет 52.5 тысяч понятий, 143 тысячи разных русскоязычных слов и словосочетаний, 209 тысяч отношений между понятиями. Общественно-политический тезаурус составляет более двух третей от объема тезауруса РуТез и включает в себя 37 тысяч понятий, около 100 тысяч разных русских слов и словосочетаний (рис. 15.2).

Как мы увидим в дальнейшем, Общественно-политический тезаурус в ряде задач применяется отдельно от остального тезауруса и может рассматриваться как информационно-поисковый тезаурус, созданный для автоматического индексирования текстов в широкой общественно-политической области. По широте предметной области Общественно-политический тезаурус соответствует таким тезаурусам, как тезаурус исследовательской службы Конгресса США LIV (LIV, 1994) или тезаурус Европейского сообщества EURO-VOC (EUROVOC, 2001). Однако наш Общественно-политический тезаурус во много раз больше упомянутых тезаурусов.

Такое различие связано с тем, что Общественно-политический тезаурус изначально создавался как ресурс для автоматической обработки текстов, когда человека-посредника между информационно-поисковым тезаурусом и языком документов нет. Поэтому достаточно большой объем информации должен быть представлен непосредственно в тезаурусе (см. «Использование информационно-поисковых тезаурусов в автоматической обработке текстов»).

Общественно-политический тезаурус включает не только термины, которые представляют важные понятия в текстах данной предметной области, но также охватывает широкий круг более специфических терминов, обнаружение которых в конкретном тексте сделает этот текст релевантным запросу по понятиям более высокого уровня.

Синонимические ряды понятий Общественно-политического тезауруса значительно богаче, чем совокупности вариантов дескриптора в тезаурусах LIV или EUROVOC, поскольку синонимы должны описывать различные способы выражения данного понятия в тексте для автоматического процесса, а не для человека. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы, глагольные группы.

Расширение терминологической базы Общественно-политического тезауруса ведет к необходимости описания многозначных терминов. Общественно-политический тезаурус содержит около 4.5 тысяч многозначных слов и выражений. В традиционных информационно-поисковых тезаурусах нет необходимости аккуратно описывать многозначность употребляемых в текстах слов и выражений, поскольку понимание текста, его основной темы возложено на человека-индексатора.

Расширение понятийной базы Общественно-политического тезауруса ведет к увеличению и усложнению функций отношений между понятиями тезауруса: возникает необходимость логического вывода на отношениях.