![]() |
ИСТИНА |
Войти в систему Регистрация |
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Данный проект посвящен развитию существующих и созданию новых ресурсов для автоматической обработки текстов на русском языке в форме тезаурусов - иерархических сетей. Тезаурусы для автоматической обработки текстов представляют собой иерархические сети понятий (синсетов), которые связаны с набором синонимов, между понятиями - установлены отношения.
Данный проект посвящен развитию существующих и созданию новых ресурсов для автоматической обработки текстов на русском языке в форме тезаурусов - иерархических сетей. Тезаурусы для автоматической обработки текстов представляют собой иерархические сети понятий (синсетов), которые связаны с набором синонимов, между понятиями - установлены отношения: 1. Была подготовлена для публикации новая версия тезауруса РуТез (РуТез-lite 2.0). Новая версия содержит более 31.5 тысячи понятий, 111.5 тысяч различных текстовых входов (слов и выражений русского языка), более 130 тысяч с учетом значений многозначных слов. Тезаурус распространяется в формате XML, которая распространяется желающим по запросу для некоммерческих исследований. Кроме того, созданная версия загружена на сайт http://www.labinform.ru/pub/ruthes/index.htm. 2. Была создана первая версия тезауруса русского языка в формате известного тезауруса WordNet Для этого: 2.1 Все текстовые входы тезауруса РуТез-lite 2.0 были разделены на три группы по частям речи: существительные (отдельные существительные, группы существительного, предложные группы), глаголы (отдельные глаголы и глагольные группы), прилагательные (отдельные прилагательные и группы прилагательного). Теперь каждый синсет содержит синонимы только одной части речи. Получилось 29297 синсетов существительных, 12865 синсетов прилагательных,7636 синсетов глаголов. При этом были введены отношения частеречной синонимии, соединяющие разделенные синсеты. 2.2 Между синсетами каждой части речи установлены связи гипоним-гипероним (род-вид)(перенесены из тезауруса РуТез-lite, применяется транзитивность отношения гипоним-гипероним, если в данном понятии тезауруса не было соответствующей части речи). Всего получилось отношений гипоним-гипероним: - для существительных - более 39 тысяч - для прилагательных - более 17 тысяч - для глаголов - более 10 тысяч 2.3. Между синсетами установлены отношения часть-целое. Отношения перенесены из РуТез и откорректированы в соответствии традициями ресурсов типа WordNet: В виде этого отношения представлены следующие виды отношений: - собственно части: нос - ноздря - вещество - ингредиенты (продукты питания - пищевые добавки), - географическое расположение (Андалузия - Севилья), - члены (женский монастырь - монахиня) - жители (Москва - москвичи) - вложение по времени (шахматная партия - гамбит) - вложение процессов, действий (промышленное производство - производственный цикл) Всего установлено более 3.5 тысяч отношений 2.4 Из отношений гипоним-гипероним выделены отношения экземпляр-класс для географических объектов.В РуТез таких отношений не было, но правильнее их иметь. Всего было введено около 2 тысяч таких отношений. 2.5 Были введены отношения антонимии для свойств и характеристик 3. В результате выполненных операций создан ресурс типа русского WordNet - RuWordNet. Из всех ранее инициировавшихся проектов по созданию русских WordNet - созданный ресурс является наиболее качественным по соотношению величина (количество текстовых входов - более 100 тысяч, количество отношений - около 100 тысяч) - качество (ручная работа). Тезаурус RuWordNet хранится в виде реляционной базы данных, может быть в представлен в форматах файлов lex (характерного для исходного WordNet), xml, на сайте (http://www.labinform.ru/pub/ruwordnet/index.htm)
грант РГНФ |
# | Сроки | Название |
2 | 24 марта 2016 г.-31 декабря 2016 г. | Автоматизированное создание тезауруса русского языка типа WordNet на базе опубликованного тезауруса |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".