Аннотация:В магистерской диссертации А.А. Дугина исследуются методы перефразирования текста. Задача перефразирования, то есть сохранения смысла текста при его изменении/переписывании (подразумевается некоторая отстройка от входных данных) относится к интеллектуальным методам обработки текста. Понимание механизмов методов перефразирования важно для решения различных задач обработки текстов, таких как аннотирование, упрощение, поиск плагиата и т.п.
В общем случае, решение данной задачи стало возможно с появлением больших нейросетевых языковых моделей, прежде всего, на основе нейросетевой архитектуре «трансформер» (модели типа BERT или GPT). При этом задача перефразирования является хорошим тестом для исследования свойств указанных сложных плохо интерпретируемых нейросетевых моделей.
В рамках магистерской диссертации были созданы три модели для перефразирования текста: модель без привязки к прикладной области, модель для работы в прикладной области комментариев, модель для работы в прикладной области информационных технологий. Для этих моделей по сравнению со стандартным походом – был улучшен результат на метриках текстовой схожести, не ухудшая результата на других метриках.
В своей работе А.А. Дугин на основе проведенного обзора существующих моделей для решения задачи перефразирования текста осуществил выбор наиболее перспективной модели. Выбранная модель была дообучена без привязки к прикладной области. Далее А.А. Дугин сформировал новые наборы данных для дальнейшего дообучения выбранной модели в прикладных областях. Также на созданных наборах данных в прикладных областях была дообучена базовая модель.
Для оценки созданных моделей было организовано тестирования с привлечением внешних экспертов с использованием сервиса Яндекс.Толока. Результаты оценки экспертами подтвердили результаты, полученные на основе сравнения метрик.
Результаты работы были представлены на ежегодной Научной конференции МГУ «Ломоносовские чтения» 2023 года и опубликованы в сборнике тезисов. Полученные модели и наборы данных были выложены в открытый доступ и доступны по ссылке https://huggingface.co/andidu.