ИСТИНА |
Войти в систему Регистрация |
|
Интеллектуальная Система Тематического Исследования НАукометрических данных |
||
ИСПОЛЬЗОВАНИЕ НЕЙРОННЫХ СЕТЕЙ ДЛЯ ОПРЕДЕЛЕНИЯ ОЦЕНОЧНОЙ КОННОТАЦИИ ТЕКСТА С.Б. Потемкин, канд. техн. наук, с. н. с. Московский государственный университет им. М.В. Ломоносова (Россия, г. Москва) При разработке программы анализа оценочного значения необходимо обучить программу на выборке текстов конкретной тематики. Набор лексических единиц, входящих в отзыв, имеющих эмоционально- оценочную коннотацию, можно легко выявить с использованием соответствующих словарей, проведя предварительную лемматизацию лексики. Эти данные, закодированные очевидным способом, будут использованы как входной набор для нейронной сети, а общая оценка, содержащаяся в отзыве, будет результатом работы нейронной сети (НС). С учетом входных данных, которые включают набор оценочных значений отдельных слов / словосочетаний, ожидается, что НС определит положительную или отрицательную характеристику всего отзыва. Решение задачи достигается путем ввода последовательности положительно (+1), отрицательно (-1) окрашенных лексем в отзыве в нейронную сеть, с последующей настройкой НС, прогоном НС на этих данных, получения результатов и их интерпретации. Наше внимание сосредоточено на анализе оценочного значения отдельных предложений. Анализ на уровне предложений подразумевает деление исходного текста на предложения и анализ каждого из них отдельно. Уровень знаний, необходимый для успешного применения нейронной сети, намного меньше, чем, к примеру, при использовании методов регрессионного анализа, экспертных систем, машины SVM, разделяющей гиперплоскости и пр. Результат анализа, а именно, отрицательным или положительным является отзыв, с учетом его лексического состава и последовательности эмоционально нагруженных лексем, является выходом нейронной сети (НС) и сравнивается с реальными оценками отзыва. Это сравнение и является материалом для обучения НС. Данные для задач классификации содержат текстовую или другую нечисловую информацию. В нашем случае оценочная лексика типа хороший / плохой значением +1 – хороший, прекрасный, замечательный, -1 плохой, дрянной, отвратительный. Нейронная сеть с прямым распространением строится вызовом функции Matlab ®. net = newff (P, T, N); где P – данные оценочной лексики и T - целевые значения, данные об оценке всего отзыва, N – число нейронов в слое. Нейронная сеть будет обучена на наборе тренировочных данных. Теперь сеть готова к обучению. Входные данные автоматически делятся объек- том net Matlab® на обучающий, проверочный и тестовый наборы. Обучение продолжается до тех пор, пока сеть продолжает улучшать соответствие между набором оценочных лексем и результатом, т.е. между результатами, полученными на выходе сети и реальными результатами оценки отзыва. Классификация на сырых данных, полученных экспериментально проведена за 6 эпох, валидация и тестирование дали приемлемые результаты: Процент правильной классификации: 72,6%, процент неверной классификации: 28,4% отзывами, 2 слоя, 20 нейронов, функ- ция активации logsig (логистическая функция). 77% удачных прогнозов. Результатом исследования стало: Нейронная сеть может применяться для практических задач классификации положительных и отрицательных отзывов в зависимости от заданной оценочной лексики. На тестовом примере НС показывает правильные результаты. Результаты не зависят от вида функции активации с насыщением и неприемлемы для линейной функции активации. Необходимо проводить дальнейшие исследования с новыми наборами данных, включающих несколько сотен или даже тысяч отзывов. Интересно получить результаты при градуированных величинах оценочной функции лексемы. Это предполагается сделать в рамках дальнейших исследований.