Аннотация:В магистерской диссертации О.В. Конопаткина рассматривается задача выявления текстов, искусственно сгенерированных с использованием современных нейросетевых мо-делей. Данная проблема приобрела особую актуальность после появления в начале 2019 года нейросетевной модели GPT-2 (Generative Pre-trained Transformer 2), когда по сравнительно небольшому начальному фрагменту нейронная сеть может порождать достаточно связный текст внешне очень похожий на написанный человеком. Возникли обоснованные опасения в увеличении возможностей в генерации больших объемов уникального поискового спама, фейковых новостей, бессмысленных, но связных выпускных студенческих работ, которые не будут определяться старыми методами. Поэтому тема исследования магистранта является ак-туальной.
Рассматриваемая задача решалась с использованием методов машинного обучения.
Во-первых, с использованием «стандартных» статистических атрибутов связного текста, которые используются в методах определения поискового спама, установления авторства. Далее исследовалась группа стандартных методов статистического машинного обучения.
Во-вторых, с использованием характеристик текста, рассчитанных с использованием метода GLTR (Giant Language model Test Room), создатели которого обратили внимание на особенности результатов обучения больших переобученных нейросетевых языковых моделей, а именно меньшее покрытие редких слов коллекции. Из-за этого могут возникать различия в статистических распределениях признаков естественных текстов и искусственно сгенеренных текстов. В магистерской диссертации признаки метода GLTR были использованы как входные данные для статистических методов классификации.
О.В. Конопаткиным создана рабочая программная система для генерации искусственных текстов с заданными параметрами, и для их классификации.
Результаты проведенных экспериментов показали, что тексты, искусственно сгене-ренные с использованием современной модели ruGPT3, обученной для русского языка в лаборатории sberbank-AI, достаточно уверенно определяются предложенным методом со значениями метрики качества F1-мера 75-90%, что является неплохим показателем в прак-тических задачах.