![]() |
ИСТИНА |
Войти в систему Регистрация |
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
Фундаментальные исследования в области методов поддержки извлечения знаний предметной области из текстовых данных большого размера, структурирования извлеченной информации в больших графах знаний, а также использования накопленных знаний для анализа разнородных информационных потоков средствами информационно-аналитических систем. В рамках НИР рассматривается фундаментальные проблемы организации знаний - извлечение, упорядочивание и использование - в сложных предметных областях, где подавляющая часть знания распределена в большом количестве разнородных текстов. Одной из востребованных форм представления содержания сложных предметных областей являются графы знаний, которые интегрируют онтологические ресурсы с развитым набором отношений между понятиями и множество именованных сущностей разных типов (конкретных объектов/субъектов, явлений окружающего мира), а также сложные элементы знаний (многокомпонентные фреймы, текстовые фрагменты, медиа-данные и т.д.). Графы знаний используются для формирования развернутых ответов на запросы пользователей, а также как источник знаний о предметной области для улучшения качества работы других методов обработки текстовых данных. Большинство известных больших графов знаний сформировано с использованием заранее структурированных экспертами данных (например, конвертированием ресурсов Википедии). В настоящее время не разработаны полностью автоматизированные подходы к построению больших графов знаний. Актуальной является задача автоматизированного формирования больших графов знаний, включая формирование больших онтологий с развитой системой отношений, интеграции в графах знаний большой номенклатурой типов именованных сущностей, текстовых фрагментов и сложных структурированных элементов знания. Целью работы является разработка методов автоматизированного формирования и сопровождения графов знаний большого размера с использованием методов глубокого обучения на основе содержательной обработки больших массивов текстов, и на основе ранее созданных больших онтологических ресурсов. А также исследование методов использования больших графов знаний для поддержки решения информационно-аналитических задач в реальных социально-экономических и научно-технических предметных областях. Новизна исследования заключается в использовании для формирования больших графов знаний при сочетании мощных методов глубокого обучения с использованием больших предобученных языковых моделей и разработанных ранее методов автоматизированного создания и использования больших лингвистических онтологий. Лингвистические онтологии используют небольшой набор отношений и поддерживают логический вывод по иерархии наследуемых связей. Коллектив авторов НИР имеет большой задел в разработке больших лингвистических онтологий, использующих небольшой набор отношений, опыт в разработке методов выделения разнообразных типов информации из текстов, опыт построения информационно-поисковых и информационно-аналитических систем. В рамках НИР предполагается на основе использования нейросетевых подходов глубокого машинного обучения развить методы автоматизированного создания онтологических ресурсов по текстам предметной области на случай больших онтологий с развитым набором отношений. Также предполагается развить методы извлечения из текстов именованных сущностей по большой номенклатуре типов, в том числе редких типов сущностей, вложенных, разрывных и т.д. Будут разработаны методы поддержки больших графов знаний, включая актуализацию содержимого графа знаний, выявление противоречий, связывание различных вариантов написания именованных сущностей, разрешение многозначности и т.д. Будут исследованы методы использования больших графов знаний для решения информационно-аналитических задач поиска и анализа информации для социально-экономической и научно-технической тематик.
Fundamental research in the field of methods for supporting the extraction of domain knowledge from big text data, structuring the extracted information in large knowledge graphs, as well as using the accumulated knowledge to analyze heterogeneous information flows by means of information and analytical systems. Within the framework of research, the fundamental problems of organizing knowledge - extraction, ordering and use - in complex subject areas, where the vast majority of knowledge is distributed in a large number of heterogeneous texts, are considered. One of the popular forms of representing the content of complex subject areas are knowledge graphs that integrate ontological resources with a developed set of relationships between concepts and a variety of named entities of different types (specific objects / subjects, phenomena of the surrounding world), as well as complex knowledge elements (multicomponent frames, text snippets, media data, etc.). Knowledge graphs are used to generate detailed responses to user queries, as well as a source of domain knowledge to improve the quality of other text processing methods. Most of the known large knowledge graphs are formed using data pre-structured by experts (for example, converting Wikipedia resources). Currently, there are no fully automated approaches to constructing large knowledge graphs. The problem of automated formation of large knowledge graphs is relevant, including the formation of large ontologies with a complex system of relations, integration in knowledge graphs with a large nomenclature of types of named entities, text fragments and complex structured elements of knowledge. The aim of the work is to develop methods for the automated formation and maintenance of large-size knowledge graphs using deep learning methods based on meaningful processing of large arrays of texts, and on the basis of large ontological resources created earlier. And also the study of methods for using large graphs of knowledge to support the solution of information and analytical problems in real socio-economic and scientific-technical subject areas. The novelty of the research lies in the use for the formation of large knowledge graphs while combining powerful deep learning methods using large pre-trained language models and previously developed methods of automated creation and use of large linguistic ontologies. Linguistic ontologies use a small set of relationships and support inference from a hierarchy of inherited relationships. The authors has a big backlog in the development of large linguistic ontologies using a small set of relations, experience in developing methods for extracting various types of information from texts, experience in building information retrieval and information analytical systems. Within the framework of the research work, it is proposed to develop methods for the automated creation of ontological resources based on the texts of the subject area on the basis of the use of neural network approaches of deep machine learning in the case of large ontologies with a developed set of relations. It is also planned to develop methods for extracting named entities from texts by a large nomenclature of types, including rare types of entities, nested, discontinuous, etc. Methods will be developed to support large knowledge graphs, including updating the content of the knowledge graph, identifying contradictions, linking different spellings of named entities, resolving polysemy, etc. Methods of using large knowledge graphs for solving information and analytical problems of searching and analyzing information for socio-economic and scientific-technical topics will be investigated.
В 2020 году планируется: (а) разработать модели и методы пополнения больших лингвистических онтологий с использованием методов машинного обучения; (б) в сотрудничестве с коллегами из Сколтеха организовать и провести научное соревнование по методам автоматического пополнения таксономических отношений больших лингвистических онтологий, в том числе сформировать обучающее и тестовое множество данных; (в) разработать и опубликовать обновленную версию лингвистической онтологии RuWordNet, рамках сотрудничества с сообществом Global WordNet Association планируется публикация версии RuWordNet в формате Open Multilingual WordNet; (г) исследовать возможности больших предобученных моделей для решения актуальных задач при построении информационно-аналитических систем – извлечение именованных сущностей «редких» типов, формирования «абстрагированных» аннотаций (не повторяя текст исходных документов); (д) провести исследования методов определения тональности с использованием нейросетевых методов с механизмом «внимания». Практическая значимость ожидаемых результатов заключается в снижении трудоемкости для формирования больших онтологических ресурсов для новых предметных областей, создании новых инструментов для информационно-аналитических систем. Формы завершения: Отчет, WoS=1, Scopus=7, другие=2.
(1) Разработана модель большой лингвистической онтологии РуТез. По методологии РуТез создано несколько больших лингвистических онтологий. С 2003 года развивается лингвистическая Онтология по естественным наукам и технологиям, предназначенная для анализа научно-технических документов. На основе РуТез создан тезаурус русского языка в соответствии с концепцией WordNet (RuWordNet). (2) Разработаны алгоритмы автоматизированной лингвистической обработки текстов на основе модели тематического представления содержания текста, включая: (а) автоматическое выявление терминологии для формирования новой онтологии или пополнения существующей; (б) выявление объектов и событий; (в) автоматическое рубрицирование; (г) автоматическое аннотирование; (д) определение тональности текстов. В работах 2017-2018 гг. представлен подход к интеграции онтологических знаний и статистических тематических моделей. Показано, что статистические темы, созданные на основе предложенной технологии, получаются более связными, понятными людям, более различимыми между собой. Для задачи извлечения редких типов именованных сущностей исследованы подходы на основе использования методов машинного обучения, в том числе нейросетевые - с использованием методов CRF, biLSTM+CRF, предобученных языковых моделей типа BERT. (3) Разработан программно-аппаратный стенд, реализующий основные функции информационно-аналитической системы для обработки, накопления и анализа больших потоков новостной информации. (4) На основе описанных методов были выполнены работы по разработке онтологических ресурсов и тематических рубрикаторов в интересах Центрального банка РФ (2011, 2014 гг.), (НП «Гидроэнергетика России», ОАО «Русгидро», 2013-2015 гг.).
госбюджет, раздел 0110 (для тем по госзаданию) |
# | Сроки | Название |
1 | 1 января 2020 г.-31 декабря 2020 г. | Разработка методов автоматического пополнения больших лингвистических онтологий таксономическими отношениями, методов извлечения редких типов именованных сущностей |
Результаты этапа: В 2020 году были получены следующие результаты. 1) В сотрудничестве с коллегами из Сколтеха было организовано и проведено научное соревнование по методам автоматического пополнения таксономических отношений больших лингвистических онтологий. Основой соревнования являлось сформированное обучающий и тестовый наборы данных. Участники тестирования должны были дополнить существующую таксономию RuWordNet новыми словами: для каждого нового слова их системы должны предоставлять ранжированный список возможных гиперонимов, т.е. ближайших родовых слов. По сравнению с предыдущими заданиями для других языков, данное тестирование имеет более реалистичную постановку задания: новые слова предоставлены без толкований. Вместо этого был предоставлен текстовый корпус, в котором встречаются эти новые слова. Для проведения тестирования был создан новый набор данных на основе неопубликованных данных тезауруса RuWordNet. Задача тестирования состоит из двух подзадач: «существительные» и «глаголы». В задании приняли участие 16 мсследовательских групп, показавших высокие результаты, более половины из них превзошли базовый подход, рассчитанный организаторами тестирования. 2) Проведено исследование моделей и методов пополнения больших лингвистических онтологий с использованием методов машинного обучения. Исследованы подходы для извлечения отношений гипоним-гипероним (класс-подкласс), которые являются основной большинства онтологий и графов знаний. Существенной является задача автоматического пополнения онтологий на основе больших текстовых корпусов. В рамках тестирования RUSSE-2020 был реализован метод для пополнения существующей таксономии в тезаурусе RuWordNet. Метод включал использование следующих признаков для пополнения таксономии: -- Дистрибутивные векторные модели (word2vec, PMI+SVD), -- Специальные типы шаблонов, -- Использование структуры существующего тезауруса, -- Нейросетевая архитектура transformer в виде модели BERT для решения задачи классификации. Результатом алгоритма является ранжированный список из 10 кандидатов гиперонимов. Оценка качества проводилась на основе метрик MAP и MRR. В результате описанный подход получил 4 место в соревновании по предсказанию гиперонимов среди существительных. Особенностью подхода является то, что среди первых 5 решений участников, только в данном решении не использовались сторонние словари и внешние векторные представления, обученные на других, более крупных, наборах данных. Это важно по той причине, что приближает к реальной ситуации, когда необходимо расширить существующий тезаурус на новый набор данных. Представленный подход является новым и уникальным для задачи предсказания гиперонимии для расширения тезауруса. То, что данный подход получил высокие результаты, не используя внешние словари и векторные представления по другим наборам данных, также является преимуществом данного подхода. 3) Разработана и опубликована обновленная версия лингвистической онтологии RuWordNet. В рамках сотрудничества с сообществом Global WordNet Association планируется публикация версии RuWordNet в формате Open Multilingual WordNet. Объем новой версии составляет более 135 тысяч слов и выражений. 4) Исследованы возможности больших предобученных моделей для решения актуальных задач при построении информационно-аналитических систем – извлечение именованных сущностей «редких» типов. Исследованы подходы к улучшению качества извлечения именованных сущностей в конкретной предметной области за счет автоматической доразметки текстовой коллекции и обучения специализированной версии юольшой языковой модели BERT для заданной предметной области. Для экспериментов был использован корпус новостных статей и комментариев в области компьютерной безопасности Sec_col. Для этого модель RuBERT была дообучена на текстовой коллекции новостей и комментариев в области компьютерной безопасности (RuCyBERT). Замена исходного RuBERT на дообученный RuCyBERT приводит к значительному росту качества извлечения именованных сущностей. Кроме того, были исследованы возможности пополнения обучающей коллекции за счет использования списка дескрипторов (слов, стоящих перед именем, например: вирус PETYA), соответствующих каждому типу именованных сущностей. Основная идея метода состоит в том, что неразмеченные предложения автоматически модифицируются, путем добавления именованных сущностей рядом или вместо дескриптора. Таким образом можно генерировать большое количество предложений с псевдо разметкой. Подобное можно сделать и уже с размеченными данными, добавляя в них новые сущности. В экспериментах было показано, что использование модели BERT, настроенной на коллекции текстов заданной предметной области и предварительно обученной на сочетании общего набора данных и дополнительно порожденных данных, обеспечивает наилучшие результаты распознавания именованных сущностей. Мы также изучили вычислительную производительность модели BERT в так называемом режиме смешанной точности. Был обучен новый вариант модели BERT для русского языка: RuNewsBERT. Обучение было выполнено следующим образом: (а) Инициализация весов от RuBERT (Burtsev et al., 2018), (б) Текстовая коллекция: 8 миллионов новостей, собранных с различных русскоязычных источников, (в) Обучение проводилось на системе DGX-2 на 16 видеокартах V100, (г) Обучение происходило только на задаче MLM, в каждом документе обрабатывались первые 512 токенов, (д) Для обучения потребовались 4 миллиона итераций, что заняло примерно один месяц. 5) Проведены исследования методов определения тональности с использованием нейросетевых методов с механизмом «внимания». Создана и опубликована новая версия словаря оценочной лексики RuSentiFrames. Тексты могут передавать несколько типов взаимосвязанной информации, касающейся мнений и отношений. Такая информация включает отношение автора к упомянутым сущностям, отношение сущностей друг к другу, положительное и отрицательное влияние на сущности в описанных ситуациях. В лексиконt RuSentiFrames для русского языка предикатные слова и выражения собраны и связаны с так называемыми оценочными фреймами, передающими несколько типов предполагаемой информации об установках и эффектах. Мы применили созданные фреймы для извлечения оценочных отношений между именованными сущностями из большой коллекции новостей. Исследованы возможности недавно появившейся архитектуры BERT по сравнению с традиционными подходами на основе нейронных сетей (CNN, LSTM, BiLSTM) на существующих размеченных наборах данных для анализа тональности на русском языке. Сравнивались два варианта архитектуры BERT, дообученной на русском языке: (а) обученный на новостях и Википедии и (б) обученный на комментариях, постах в социальных сетях (разговорный вариант). Было показано, что для всех рассмотренных задач тональности в этом исследовании разговорный вариант русского BERT работает лучше. Наилучшие результаты были достигнуты с помощью модели BERT-NLI, которая рассматривает задачи классификации тональности как задачу логического вывода на естественном языке. По одному из наборов данных эта модель практически достигает человеческого уровня. Рассмотрена задача извлечения оценочных отношений между именованными сущностями, упомянутыми в тексте. Предлагается подход на основе нейросетевых кодировщиков контекста, основанных на внимании. Для этой задачи был адаптированы кодировщики контекста двух типов: (а) функционально-ориентированные; (б) основанные на самовнимании. В исследовании использовался корпус русскоязычных аналитических текстов RuSentRel и автоматически построенный новостной датасет RuAttitude для обогащения обучающей выборки. Задача выделения отношения рассматривалась как двухклассовая (положительный, отрицательный) и трехклассовая (положительный, отрицательный, нейтральный) для всего документа. Эксперименты с корпусом RuSentRel показали, что трехклассовые модели классификации, которые используют корпус RuAttitude для обучения, приводят к увеличению на 10% и дополнительным 3% на F1, когда архитектуры моделей включают механизм внимания. Также были проанализированы распределения весов внимания в зависимости от типа контекста. | ||
2 | 1 января 2021 г.-31 декабря 2021 г. | Разработка методов автоматизированного формирования больших лингвистических предметной области, методов извлечения сложных типов именованных сущностей, исследование методов автоматизированного формирования графов знаний |
Результаты этапа: (1) По направлению выявления сложных текстовых образов именованных сущностей – вложенных, разрывных, неполных - сформирован NEREL - новый датасет на русском языке с размеченными именованными сущностями и отношениями между ними. Особенностью NEREL является разметка вложенных именованных сущностей и их отношений. Отношения между сущностями размечаются в рамках связного текста и не ограничиваются уровнем предложения. (2) По направлению разработки методов автоматического пополнения больших лингвистических онтологий (с небольшим количеством фиксированных отношений) предметной области - получен результат, что комбинации векторных представлений, обученных на общей предметной области, рассчитанные на больших текстовых коллекциях из сети Интернет, оказывают существенное влияние на качество пополнения таксономий, таких как WordNet, RuWordNet, Онтологии Естественных Наук и Технологий (ОЕНТ). (3) По направлению разработки методов глубокого машинного обучения для интегрирования большой номенклатуры типов именованных сущностей с понятиями онтологии - реализована система предсказания гиперонимов для неизвестных заранее именованных сущностей и веб-сервис для работы с ней. (4) Велись исследования методов наполнения «текстовых вершин» графа знаний, когда элемент графа знаний представляет собой фрагмент текста, содержащий неструктурированное знание по заданной теме. Исследовались методы абстрактного аннотирования извлечения значимых текстовых фрагментов с использованием современных нейросетевых подходов. (5) Были рассмотрены методы анализа текстовых материалов вида «резюме и вакансии», учебные курсы. Для онтологии ОЕНТ получен результат, что отношения «пререквизит» могут автоматически выводиться по иерархии существующих отношений лингвистических онтологий типа РуТез, возможно, с добавлением небольшого количества отношений вручную. (6) Проводились исследования по интеграции информационных методов в биологические исследования. Практическая значимость полученных результатов заключается в снижении трудоемкости для формирования больших онтологических ресурсов, создании новых инструментов для информационно-аналитических систем, в том числе для новых предметных областей. | ||
3 | 1 января 2022 г.-31 декабря 2022 г. | Разработка методов автоматизированного формирования больших графов знаний предметной области |
Результаты этапа: В течение 2022 года при выполнении 3го этапа «Разработка методов автоматизированного формирования больших лингвистических онтологий предметной области, методов извлечения сложных типов именованных сущностей, исследование методов автоматизированного формирования графов знаний» получены следующие результаты: 1) По направлению исследования методов автоматического извлечения неизвестных отношений показано, что применение выделяемых с использованием нейросетевых методов именованных сущностей и отношений с ними позволяет ввести метрики фактологической достоверности оценки качества экстрактивных и абстрактивных аннотаций. Разработан новый метод построения псевдо-аннотаций на основе кластеров – ClusterVote. Метод апробирован для обучения русскоязычных предобученных генеративных моделей общего назначения: mBART, ruT5. С помощью метода собрана самая большая коллекция для аннотирования русскоязычных новостей – Telegram News*CV(RU). 2) По направлению разработки методов автоматизированного формирования больших онтологий предметной области с развитым набором отношений были проведены эксперименты по извлечению отношений (49 типов) на датасете NEREL. Особенностью датасета является то, что он размечен вложенными именованными сущностями, что позволяет увеличивать полноту извлечения отношений из текстов. Была проведена коррекция входного формата данных, после чего качество извлечения отношений внутри предложения с помощью пакета OpenNRE с использованием контекстуализированных эмбеддингов RuBERT, достигло 80.5% F-меры. Для исследования извлечения таксономических отношений из текстовых коллекций в рамках проекта был создан датасет Diachronic wordnets. Был исследован подход на основе мета-эмбеддингов с функцией потерь триплет-лосс, комбинирующий векторные представления слов (word2vec, glove, fasttext) и графовые представления, с помощью которого получены лучшие результаты извлечения гиперонимов для существительных во всех вариантах датасета. 3) По направлению разработки методов связывания различных текстовых вариантов извлеченных именованных сущностей на основе результатов обработки больших текстовых коллекций были проведены эксперименты по связыванию упоминаний именованных сущностей из набора данных NEREL c объектами графа знаний Викиданные. Показано, что наиболее эффективным из рассмотренных способов оценки неопределенности является score-based подход. Для ряда категорий рассматриваемого набора данных, более высокую эффективность показывают методы, основанные на ансамблях моделей. 4) По направлению разработки методов разрешения многозначности текстового выражения именованных сущностей в разных документах был изучен подход, учитывающий априорную многозначность именованных сущностей при связывании сущностей с Викиданными. В результате комбинирования score-based оценки с предложенным методом удалось увеличить точность предсказания правильной ссылки сущности в Викиданных. Практическая значимость результатов заключается в снижении трудоемкости для формирования больших графов знаний в части подключения именованных сущностей, а также текстовых объектов в виде аннотаций. | ||
4 | 1 января 2023 г.-31 декабря 2023 г. | Разработка методов автоматизированного сопровождения больших графов знаний и больших онтологий по потоку разнородных текстов предметной области |
Результаты этапа: | ||
5 | 1 января 2024 г.-31 декабря 2024 г. | Разработка методов автоматизированного сопровождения больших графов знаний и больших онтологий по потоку разнородных текстов предметной области |
Результаты этапа: |
Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".