Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий - НИР | ИСТИНА – Интеллектуальная Система Тематического Исследования НАукометрических данных

Руководитель НИР: Лукашевич Н.В.
Участники НИР: Артемова Е.Л., Батура Т.В., Браславский П.И., Иванов В.В., Рожков И.С., Тихомиров М.М., Тутубалина Е.В., Шелманов А.О.
Подразделение: 4.04.Лаборатория анализа информационных ресурсов
Срок исполнения: 28 мая 2020 г. - 30 декабря 2022 г.
Номер договора (контракта, соглашения): 20-11-20166
Номер ЦИТИС: АААА-А20-120092290075-7
Тип: Фундаментальная
Приоритетное направление научных исследований: Фундаментальные проблемы построения систем информатизации, методология, технология и безопасность крупных информационных систем
Приоритеты и перспективы НТР Российской Федерации согласно Стратегии НТР РФ: переход к передовым цифровым, интеллектуальным технологиям
ПН России: Информационно-телекоммуникационные системы
Направление технологического прорыва России: Стратегические информационные технологии
Критическая технология России: Нано-, био-, информационные, когнитивные технологии
Рубрики ГРНТИ:
- 28.23.39 Интеллектуальные базы знаний
- 28.23.29 Программная реализация интеллектуальных систем
- 28.23.37 Нейронные сети
Классификатор OECD: Информатика – теория и методы
Ключевые слова: распознавание именованных сущностей, межъязыковой перенос, многозадачное обучение, база знаний, извлечение отношений из текстов
multitask learning, relation extraction, knowledge base construction, named entity recognition, entity linking, end-to-end learning, multilingual transfer, distant supervision, cross-lingual transfer learning
Описание:
Проект направлен на решение проблемы построения графа знаний по неструктурированным текстам на разных языках с минимальным обучением и с использованием межъязыковых данных. Такой подход поможет значительно улучшить качество результатов в задачах автоматической обработки текстов.
Abstract:
he project aims to develop minimally supervised deep learning methods for knowledge graph construction from unstructured text in cross-lingual settings. It also aims to develop new datasets that will help in evaluating the accuracy of the developed methods. The project aims to achieve these by breaking this task into the following steps: - Develop end-to-end cross-lingual named entity recognition and relation extraction system - Exploit multi-task learning within mono-lingual and cross-lingual settings - Extend the above with entity linking to cross-lingual knowledge graph construction - Develop encoder-decoder architectures for cross-lingual knowledge graph construction by integrating knowledge graph to text generation methods The project will evaluate the effectiveness of the above methods by: - Developing evaluation datasets in Russian - Demonstrating transfer learning across languages and domains
Планируемые результаты:
роект направлен на исследование методов построения графов знаний с использованием многоязычных и многозадачных подходов. Это требует решения трех основных задач автоматической обработки текстов: распознавание именованных сущностей, извлечение отношений и связывание сущностей (т.е. сопоставление распознанных сущностей с объектами из базы знаний). 1й год проекта A. Исследование и разработка методов систем для извлечения сущностей и отношений из текстов на естественном языке 1. Исследование современных моноязычных методов извлечения сущностей и отношений из текстов на естественном языке. 2. Исследование межъязыковых методов извлечения информации. 3. Исследование методов многозадачного обучения, применимых к решению задач извлечения сущностей и отношений из текстов на естественном языке. 4. Разработка многозадачных и межъязыковых методов извлечения сущностей и отношений из текстов на естественном языке. 5. Создание модуля оценки качества методов извлечения сущностей и отношений из текстов на естественном языке.
Научный задел:
Под руководством Н.В. Лукашевич разработана совокупность лингвистических и терминологических ресурсов, которые применяются в различных приложениях автоматической обработки текстов. Создан тезаурус русского языка РуТез, предназначенный для различных приложений автоматической обработки текстов. Принципы разработки тезаурусов и лингвистических онтологий для автоматической обработки текстов были неоднократно использованы для создания тезаурусов и онтологий в разнообразных предметных областях, включая Онтологию по наукам и технологиям ОЕНТ (грант РФФИ 05-07-90391-в), онтологию в области авиации АВИА-ОНТОЛОГИЯ (грант РФФИ 02-07-90279-в), Тезаурус по компьютерной безопасности, Банковский тезаурус (сделан по заказу Центрального Банка Российской Федерации) и др. В настоящее время Онтология по естественным наукам и технологиям (ОЕНТ) содержит 263 тысячи терминов по науке и технике, включая медицинскую терминологию, а также 183 тысячи англоязычных переводов этих терминов. Разработана единая методология создания тезауруса (лингвистической онтологии) новой предметной области, связанная с набором представительной коллекции документов этой области, автоматизированным извлечением терминологии, принципами ввода новых понятий-терминов в тезаурус и описания отношений
Добавил в систему: Лукашевич Наталья Валентиновна

Источник финансирования НИР

грант РНФ

Этапы НИР

#	Сроки	Название
1	28 мая 2020 г.-30 декабря 2020 г.	Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий. Этап 1
Результаты этапа:
2	1 января 2021 г.-31 декабря 2021 г.	Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий. Этап 2
Результаты этапа:
3	10 января 2022 г.-30 декабря 2022 г.	Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологий. Этап 3
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".

ИСТИНА

Интеллектуальная Система Тематического Исследования НАукометрических данных

Автоматические методы построения и пополнения баз знаний на основе кросс-языковых технологийНИР

Cross-lingual Knowledge Base Construction and Maintenance

Источник финансирования НИР

Этапы НИР

Прикрепленные к НИР результаты

	ИСТИНА	Войти в систему Регистрация
	Интеллектуальная Система Тематического Исследования НАукометрических данных
	Главная Поиск Статистика О проекте Помощь