Войти



Последние материалы

Золотые партнеры:

Агенство "Экосеть" - санпаспорт на автомобиль и заключение сэс. Гарантия.

Серебряные партнеры:

Разработка сайтов в Москве - информация. Разработать сайт - цены в Москве. . Услуги профессионалов. Объявления - ножницы цен.

Бронзовые партнеры:

От информационно-поисковых тезаурусов к формальным онтологиям. Часть 3.
Статьи
Автор: Лукашевич Н.В.   
06.10.2011 09:36

От информационно-поисковых тезаурусов к формальным онтологиям. Часть 3.

Проект преобразования тезауруса AGROVOC в онтологию действительно стал реализовываться (Liang и др., 2006). Речь идет об автоматизированном преобразовании исходного набора тезаурусных отношений в онтологические отношения. Всего предложено более 70 отношений между понятиями тезауруса (http://aims.fao.org/website/Ontology-relationships/sub).

Использование такого большого количества отношений в широкой предметной области требует очень строгих формализованных правил их установления, поскольку известно, что разнообразие отношений увеличивает проблему субъективности их установления. О реализации описания правил ввода и использовании их в автоматических процедурах обработки текста пока ничего не известно.

Кроме того, на пути применения таких «информационно-поисковых онтологии» в реальных приложениях информационного поиска и автоматической обработки текстов в широких, плохо структурированных предметных областях (какими, собственно, и являются предметные области «Сельское хозяйство» и «Образование») имеются определенные трудности.

Действительно, чтобы подобные правила логического вывода работали, помимо изменений в описании понятий и терминов предметной области, нужно иметь автоматические средства обработки естественно-языковых текстов, позволяющие в неограниченном связном тексте точно и полно извлекать последовательности фактов, уметь прослеживать кореферентность, следить за временем извлекаемых фактов: в корма попала ртуть, эти корма принадлежат данной ферме, коровы этой фермы съели именно эти корма, изготовление сыра чеддер этой фермой произведено в период времени сразу после того, как эти коровы съели эти корма, и т. п.

Кроме того, в тексте слова корма и ртуть могут оказаться в разных частях длинного предложения или в разных предложениях текста, например, из-за использования эллиптической конструкции (пропуск в речи явно подразумеваемого слова) или местоимения и т. п., что значительно усложнит выявление этого факта.

Понятно, что в настоящее (и ближайшее) время ни одна из существующих систем автоматической обработки текстов, извлечения знаний из текстов не может обеспечить такой уровень точности и полноты получения информации из текстов, на которых надежно можно было обосновывать работу правил логического вывода.

Таким образом, по нашему мнению, значительные трудозатраты на подобную формализацию информационно-поисковых тезаурусов могут и не привести к повышению качества автоматической обработки текстов и созданию ресурсов, лучше приспособленных к автоматическим режимам работы, чем существующие информационно-поисковые тезаурусы.