Аннотация:В выпускной квалификационной работе (далее – ВКР) А.Н. Верещаки исследуется задача «таргетированной тональности», когда надо определить как автор текста относится к некоторой именованной сущности.
Востребованность решения задачи определяется потребностью автоматически определять отношение большого количества пользователей к той или иной сущности в экономическом, социальном или политическом контексте. Научная актуальность задачи определяется тем, что существует большое количество способов выражения позиции автора по отношению к сущности. В общей постановке такие задачи в настоящее время могут решаться только с использованием методов машинного обучения. Лучшие результаты достигаются с использованием методов, основанных на больших нейросетевых языковых моделях типа BERT, где существенную роль играет модель «внутреннего внимания» (также «самовнимания»). Однако эти методы плохо интерпретируемы.
Особенностью решаемой А.Н. Верещакой задачи было наличие разметки входных данных, в качестве которых рассматривались данные научного соревнования, проводимого в рамках конференции Dialogue-2023. Также данные были дополнительно размечены тональными объектами по большим словарям тонально-окрашенных слов и выражений. Требовалось разобраться, насколько большие языковые модели «видят» тонально-окрашенную лексику.
А.Н. Верещака разобрался в непростых способах исследования механизмов внимания, реализовал два метода оценки тональности:
- прямой выбор тональной оценки, анализируя значения оценки внимания от тонально-окрашенной лексики к именованной сущности;
- метод косвенной оценки, когда определяется тональность по отношению к некоторому аспекту сущности, а затем оценка переносится на сущность.
В результате проведенного исследования получены интересные результаты, во многом объясняющие, как в методах машинного обучения на основе больших нейросетевых моделях типа BERT задействуется механизм внимания при решении задач таргетированной тональности.