![]() |
ИСТИНА |
Войти в систему Регистрация |
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
В данной статье мы рассматриваем задачу таргетированного анализа тональности в русском языке. Мы сравнили несколько подходов машинного обучения, основанных на архитектуре трансформера: BERT, RuBERT, RuRoberta. Основное внимание в наших исследованиях было направлено на использование дополнительных источников знания, хранящихся в словарях оценочной лексики. В нашем исследовании были задействованы два русских словаря: RuSentiLex и RuSentiFrames. Мы используем лексиконы двумя разными способами. Первый метод использует RuSentiLex для автоматической разметки дополнительных текстовых данных для расширения набора обучающих данных. Были получены два варианта аннотированных текстов на основе лексики: общие и предметно-предметные коллекции. Другой метод создает векторные представления для классо слов в оценочные словари и, таким образом, интегрирует знания лексикона в весь процесс обучения нейронной сети. Комбинация двух русских словарей и архитектуры GRU-TSC позволила достичь самых современных результатов на пяти наборах оценочных данных.