ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Проект направлен на решение проблемы построения графа знаний по неструктурированным текстам на разных языках с минимальным обучением и с использованием межъязыковых данных. Такой подход поможет значительно улучшить качество результатов в задачах автоматической обработки текстов.
he project aims to develop minimally supervised deep learning methods for knowledge graph construction from unstructured text in cross-lingual settings. It also aims to develop new datasets that will help in evaluating the accuracy of the developed methods. The project aims to achieve these by breaking this task into the following steps: - Develop end-to-end cross-lingual named entity recognition and relation extraction system - Exploit multi-task learning within mono-lingual and cross-lingual settings - Extend the above with entity linking to cross-lingual knowledge graph construction - Develop encoder-decoder architectures for cross-lingual knowledge graph construction by integrating knowledge graph to text generation methods The project will evaluate the effectiveness of the above methods by: - Developing evaluation datasets in Russian - Demonstrating transfer learning across languages and domains
роект направлен на исследование методов построения графов знаний с использованием многоязычных и многозадачных подходов. Это требует решения трех основных задач автоматической обработки текстов: распознавание именованных сущностей, извлечение отношений и связывание сущностей (т.е. сопоставление распознанных сущностей с объектами из базы знаний). 1й год проекта A. Исследование и разработка методов систем для извлечения сущностей и отношений из текстов на естественном языке 1. Исследование современных моноязычных методов извлечения сущностей и отношений из текстов на естественном языке. 2. Исследование межъязыковых методов извлечения информации. 3. Исследование методов многозадачного обучения, применимых к решению задач извлечения сущностей и отношений из текстов на естественном языке. 4. Разработка многозадачных и межъязыковых методов извлечения сущностей и отношений из текстов на естественном языке. 5. Создание модуля оценки качества методов извлечения сущностей и отношений из текстов на естественном языке.
Под руководством Н.В. Лукашевич разработана совокупность лингвистических и терминологических ресурсов, которые применяются в различных приложениях автоматической обработки текстов. Создан тезаурус русского языка РуТез, предназначенный для различных приложений автоматической обработки текстов. Принципы разработки тезаурусов и лингвистических онтологий для автоматической обработки текстов были неоднократно использованы для создания тезаурусов и онтологий в разнообразных предметных областях, включая Онтологию по наукам и технологиям ОЕНТ (грант РФФИ 05-07-90391-в), онтологию в области авиации АВИА-ОНТОЛОГИЯ (грант РФФИ 02-07-90279-в), Тезаурус по компьютерной безопасности, Банковский тезаурус (сделан по заказу Центрального Банка Российской Федерации) и др. В настоящее время Онтология по естественным наукам и технологиям (ОЕНТ) содержит 263 тысячи терминов по науке и технике, включая медицинскую терминологию, а также 183 тысячи англоязычных переводов этих терминов. Разработана единая методология создания тезауруса (лингвистической онтологии) новой предметной области, связанная с набором представительной коллекции документов этой области, автоматизированным извлечением терминологии, принципами ввода новых понятий-терминов в тезаурус и описания отношений
грант РНФ |
# | Сроки | Название |
1 | 28 мая 2020 г.-30 декабря 2020 г. | Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий. Этап 1 |
Результаты этапа: | ||
2 | 1 января 2021 г.-31 декабря 2021 г. | Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий. Этап 2 |
Результаты этапа: | ||
3 | 10 января 2022 г.-30 декабря 2022 г. | Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий. Этап 3 |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".