English
!

Доклады

Использование нейронных сетей для определения оценочной коннотации текста

Потемкин С.Б.

Московский государственный университет им. М.В. Ломоносова (Россия, г. Москва), Филологический факультет, Москва Ленинские Горы 1 стр.51, prolexprim@gmail.com

При разработке программы анализа оценочного значения необходимо обучить программу на выборке текстов конкретной тематики. Набор лексических единиц, входящих в отзыв, имеющих эмоционально- оценочную коннотацию, можно легко выявить с использованием соответствующих словарей, проведя предварительную лемматизацию лексики. Эти данные, закодированные очевидным способом, будут использованы как входной набор для нейронной сети, а общая оценка, содержащаяся в отзыве, будет результатом работы нейронной сети (НС). С учетом входных данных, которые включают набор оценочных значений отдельных слов / словосочетаний, ожидается, что НС определит положительную или отрицательную характеристику всего отзыва. Решение задачи достигается путем ввода последовательности положительно (+1), отрицательно (-1) окрашенных лексем в отзыве в нейронную сеть, с последующей настройкой НС, прогоном НС на этих данных, получения результатов и их интерпретации. Наше внимание сосредоточено на анализе оценочного значения отдельных предложений. Анализ на уровне предложений подразумевает деление исходного текста на предложения и анализ каждого из них отдельно. Уровень знаний, необходимый для успешного применения нейронной сети, намного меньше, чем, к примеру, при использовании методов регрессионного анализа, экспертных систем, машины SVM, разделяющей гиперплоскости и пр. Результат анализа, а именно, отрицательным или положительным является отзыв, с учетом его лексического состава и последовательности эмоционально нагруженных лексем, является выходом нейронной сети (НС) и сравнивается с реальными оценками отзыва. Это сравнение и является материалом для обучения НС. Данные для задач классификации содержат текстовую или другую нечисловую информацию. В нашем случае оценочная лексика типа хороший / плохой значением +1 – хороший, прекрасный, замечательный, -1 плохой, дрянной, отвратительный. Нейронная сеть с прямым распространением строится вызовом функции Matlab ®. net = newff (P, T, N); где P – данные оценочной лексики и T - целевые значения, данные об оценке всего отзыва, N – число нейронов в слое. Нейронная сеть будет обучена на наборе тренировочных данных. Теперь сеть готова к обучению. Входные данные автоматически делятся объек- том net Matlab® на обучающий, проверочный и тестовый наборы. Обучение продолжается до тех пор, пока сеть продолжает улучшать соответствие между набором оценочных лексем и результатом, т.е. между результатами, полученными на выходе сети и реальными результатами оценки отзыва.

Классификация на сырых данных, полученных экспериментально проведена за 6 эпох, валидация и тестирование дали приемлемые результаты: Процент правильной классификации: 72,6%, процент неверной классификации: 28,4% отзывами, 2 слоя, 20 нейронов, функ- ция активации logsig (логистическая функция). 77% удачных прогнозов.

Результатом исследования стало: Нейронная сеть может применяться для практических задач классификации положительных и отрицательных отзывов в зависимости от заданной оценочной лексики. На тестовом примере НС показывает правильные результаты. Результаты не зависят от вида функции активации с насыщением и неприемлемы для линейной функции активации. Необходимо проводить дальнейшие исследования с новыми наборами данных, включающих несколько сотен или даже тысяч отзывов. Интересно получить результаты при градуированных величинах оценочной функции лексемы. Это предполагается сделать в рамках дальнейших исследований.

Материалы доклада

© 2004 Дизайн Лицея Информационных технологий №1533