Методы структурирования трудноформализуемых предметных областей на основе автоматизированного формирования больших графов знаний и онтологий по разнородным потокам текстовых данныхНИР

Methods for structuring illformalize subject domains base on the automated generation of large knowledge graphs and ontologies on heterogeneous streams of text data

Источник финансирования НИР

госбюджет, раздел 0110 (для тем по госзаданию)

Этапы НИР

# Сроки Название
1 1 января 2020 г.-31 декабря 2020 г. Разработка методов автоматического пополнения больших лингвистических онтологий таксономическими отношениями, методов извлечения редких типов именованных сущностей
Результаты этапа: В 2020 году были получены следующие результаты. 1) В сотрудничестве с коллегами из Сколтеха было организовано и проведено научное соревнование по методам автоматического пополнения таксономических отношений больших лингвистических онтологий. Основой соревнования являлось сформированное обучающий и тестовый наборы данных. Участники тестирования должны были дополнить существующую таксономию RuWordNet новыми словами: для каждого нового слова их системы должны предоставлять ранжированный список возможных гиперонимов, т.е. ближайших родовых слов. По сравнению с предыдущими заданиями для других языков, данное тестирование имеет более реалистичную постановку задания: новые слова предоставлены без толкований. Вместо этого был предоставлен текстовый корпус, в котором встречаются эти новые слова. Для проведения тестирования был создан новый набор данных на основе неопубликованных данных тезауруса RuWordNet. Задача тестирования состоит из двух подзадач: «существительные» и «глаголы». В задании приняли участие 16 мсследовательских групп, показавших высокие результаты, более половины из них превзошли базовый подход, рассчитанный организаторами тестирования. 2) Проведено исследование моделей и методов пополнения больших лингвистических онтологий с использованием методов машинного обучения. Исследованы подходы для извлечения отношений гипоним-гипероним (класс-подкласс), которые являются основной большинства онтологий и графов знаний. Существенной является задача автоматического пополнения онтологий на основе больших текстовых корпусов. В рамках тестирования RUSSE-2020 был реализован метод для пополнения существующей таксономии в тезаурусе RuWordNet. Метод включал использование следующих признаков для пополнения таксономии: -- Дистрибутивные векторные модели (word2vec, PMI+SVD), -- Специальные типы шаблонов, -- Использование структуры существующего тезауруса, -- Нейросетевая архитектура transformer в виде модели BERT для решения задачи классификации. Результатом алгоритма является ранжированный список из 10 кандидатов гиперонимов. Оценка качества проводилась на основе метрик MAP и MRR. В результате описанный подход получил 4 место в соревновании по предсказанию гиперонимов среди существительных. Особенностью подхода является то, что среди первых 5 решений участников, только в данном решении не использовались сторонние словари и внешние векторные представления, обученные на других, более крупных, наборах данных. Это важно по той причине, что приближает к реальной ситуации, когда необходимо расширить существующий тезаурус на новый набор данных. Представленный подход является новым и уникальным для задачи предсказания гиперонимии для расширения тезауруса. То, что данный подход получил высокие результаты, не используя внешние словари и векторные представления по другим наборам данных, также является преимуществом данного подхода. 3) Разработана и опубликована обновленная версия лингвистической онтологии RuWordNet. В рамках сотрудничества с сообществом Global WordNet Association планируется публикация версии RuWordNet в формате Open Multilingual WordNet. Объем новой версии составляет более 135 тысяч слов и выражений. 4) Исследованы возможности больших предобученных моделей для решения актуальных задач при построении информационно-аналитических систем – извлечение именованных сущностей «редких» типов. Исследованы подходы к улучшению качества извлечения именованных сущностей в конкретной предметной области за счет автоматической доразметки текстовой коллекции и обучения специализированной версии юольшой языковой модели BERT для заданной предметной области. Для экспериментов был использован корпус новостных статей и комментариев в области компьютерной безопасности Sec_col. Для этого модель RuBERT была дообучена на текстовой коллекции новостей и комментариев в области компьютерной безопасности (RuCyBERT). Замена исходного RuBERT на дообученный RuCyBERT приводит к значительному росту качества извлечения именованных сущностей. Кроме того, были исследованы возможности пополнения обучающей коллекции за счет использования списка дескрипторов (слов, стоящих перед именем, например: вирус PETYA), соответствующих каждому типу именованных сущностей. Основная идея метода состоит в том, что неразмеченные предложения автоматически модифицируются, путем добавления именованных сущностей рядом или вместо дескриптора. Таким образом можно генерировать большое количество предложений с псевдо разметкой. Подобное можно сделать и уже с размеченными данными, добавляя в них новые сущности. В экспериментах было показано, что использование модели BERT, настроенной на коллекции текстов заданной предметной области и предварительно обученной на сочетании общего набора данных и дополнительно порожденных данных, обеспечивает наилучшие результаты распознавания именованных сущностей. Мы также изучили вычислительную производительность модели BERT в так называемом режиме смешанной точности. Был обучен новый вариант модели BERT для русского языка: RuNewsBERT. Обучение было выполнено следующим образом: (а) Инициализация весов от RuBERT (Burtsev et al., 2018), (б) Текстовая коллекция: 8 миллионов новостей, собранных с различных русскоязычных источников, (в) Обучение проводилось на системе DGX-2 на 16 видеокартах V100, (г) Обучение происходило только на задаче MLM, в каждом документе обрабатывались первые 512 токенов, (д) Для обучения потребовались 4 миллиона итераций, что заняло примерно один месяц. 5) Проведены исследования методов определения тональности с использованием нейросетевых методов с механизмом «внимания». Создана и опубликована новая версия словаря оценочной лексики RuSentiFrames. Тексты могут передавать несколько типов взаимосвязанной информации, касающейся мнений и отношений. Такая информация включает отношение автора к упомянутым сущностям, отношение сущностей друг к другу, положительное и отрицательное влияние на сущности в описанных ситуациях. В лексиконt RuSentiFrames для русского языка предикатные слова и выражения собраны и связаны с так называемыми оценочными фреймами, передающими несколько типов предполагаемой информации об установках и эффектах. Мы применили созданные фреймы для извлечения оценочных отношений между именованными сущностями из большой коллекции новостей. Исследованы возможности недавно появившейся архитектуры BERT по сравнению с традиционными подходами на основе нейронных сетей (CNN, LSTM, BiLSTM) на существующих размеченных наборах данных для анализа тональности на русском языке. Сравнивались два варианта архитектуры BERT, дообученной на русском языке: (а) обученный на новостях и Википедии и (б) обученный на комментариях, постах в социальных сетях (разговорный вариант). Было показано, что для всех рассмотренных задач тональности в этом исследовании разговорный вариант русского BERT работает лучше. Наилучшие результаты были достигнуты с помощью модели BERT-NLI, которая рассматривает задачи классификации тональности как задачу логического вывода на естественном языке. По одному из наборов данных эта модель практически достигает человеческого уровня. Рассмотрена задача извлечения оценочных отношений между именованными сущностями, упомянутыми в тексте. Предлагается подход на основе нейросетевых кодировщиков контекста, основанных на внимании. Для этой задачи был адаптированы кодировщики контекста двух типов: (а) функционально-ориентированные; (б) основанные на самовнимании. В исследовании использовался корпус русскоязычных аналитических текстов RuSentRel и автоматически построенный новостной датасет RuAttitude для обогащения обучающей выборки. Задача выделения отношения рассматривалась как двухклассовая (положительный, отрицательный) и трехклассовая (положительный, отрицательный, нейтральный) для всего документа. Эксперименты с корпусом RuSentRel показали, что трехклассовые модели классификации, которые используют корпус RuAttitude для обучения, приводят к увеличению на 10% и дополнительным 3% на F1, когда архитектуры моделей включают механизм внимания. Также были проанализированы распределения весов внимания в зависимости от типа контекста.
2 1 января 2021 г.-31 декабря 2021 г. Разработка методов автоматизированного формирования больших лингвистических предметной области, методов извлечения сложных типов именованных сущностей, исследование методов автоматизированного формирования графов знаний
Результаты этапа:
3 1 января 2022 г.-31 декабря 2022 г. Разработка методов автоматизированного формирования больших графов знаний предметной области
Результаты этапа:
4 1 января 2023 г.-31 декабря 2023 г. Разработка методов автоматизированного сопровождения больших графов знаний и больших онтологий по потоку разнородных текстов предметной области
Результаты этапа:

Прикрепленные к НИР результаты

Для прикрепления результата сначала выберете тип результата (статьи, книги, ...). После чего введите несколько символов в поле поиска прикрепляемого результата, затем выберете один из предложенных и нажмите кнопку "Добавить".