| Общественно-политический тезаурус в сравнении с традиционными информационно-поисковыми тезаурусами |
| Статьи | |||
| Автор: Лукашевич Н.В. | |||
| 08.11.2011 17:56 | |||
Общественно-политический тезаурус в сравнении с традиционными информационно-поисковыми тезаурусамиК началу 2010 г. объем тезауруса РуТез составляет 52.5 тысяч понятий, 143 тысячи разных русскоязычных слов и словосочетаний, 209 тысяч отношений между понятиями. Общественно-политический тезаурус составляет более двух третей от объема тезауруса РуТез и включает в себя 37 тысяч понятий, около 100 тысяч разных русских слов и словосочетаний (рис. 15.2).
Как мы увидим в дальнейшем, Общественно-политический тезаурус в ряде задач применяется отдельно от остального тезауруса и может рассматриваться как информационно-поисковый тезаурус, созданный для автоматического индексирования текстов в широкой общественно-политической области. По широте предметной области Общественно-политический тезаурус соответствует таким тезаурусам, как тезаурус исследовательской службы Конгресса США LIV (LIV, 1994) или тезаурус Европейского сообщества EURO-VOC (EUROVOC, 2001). Однако наш Общественно-политический тезаурус во много раз больше упомянутых тезаурусов. Такое различие связано с тем, что Общественно-политический тезаурус изначально создавался как ресурс для автоматической обработки текстов, когда человека-посредника между информационно-поисковым тезаурусом и языком документов нет. Поэтому достаточно большой объем информации должен быть представлен непосредственно в тезаурусе (см. «Использование информационно-поисковых тезаурусов в автоматической обработке текстов»). Общественно-политический тезаурус включает не только термины, которые представляют важные понятия в текстах данной предметной области, но также охватывает широкий круг более специфических терминов, обнаружение которых в конкретном тексте сделает этот текст релевантным запросу по понятиям более высокого уровня. Синонимические ряды понятий Общественно-политического тезауруса значительно богаче, чем совокупности вариантов дескриптора в тезаурусах LIV или EUROVOC, поскольку синонимы должны описывать различные способы выражения данного понятия в тексте для автоматического процесса, а не для человека. Ряды синонимов включают в себя не только существительные и именные группы, а также прилагательные, глаголы, глагольные группы. Расширение терминологической базы Общественно-политического тезауруса ведет к необходимости описания многозначных терминов. Общественно-политический тезаурус содержит около 4.5 тысяч многозначных слов и выражений. В традиционных информационно-поисковых тезаурусах нет необходимости аккуратно описывать многозначность употребляемых в текстах слов и выражений, поскольку понимание текста, его основной темы возложено на человека-индексатора. Расширение понятийной базы Общественно-политического тезауруса ведет к увеличению и усложнению функций отношений между понятиями тезауруса: возникает необходимость логического вывода на отношениях. Tags: Общественно-политический тезаурус в сравнении с традиционными информационно-поисковыми тезаурусами Тезаурус РуТез
|
