facebook
twitter
vk
instagram
linkedin
google+
tumblr
akademia
youtube
skype
mendeley
Global international scientific
analytical project
GISAP
GISAP logotip
Перевод страницы
 

Применение нейронных сетей для рубрикации текстов на естественном языке

Применение нейронных сетей для рубрикации текстов на естественном языке
Vitaly Savchenko, аспирант

Алтайский государственный технический университет им. И. И. Ползунова

Участник конференции

В статье рассматривается метод машинного обучения для классификации текстов на русском языке, который использует искусственную нейронную сеть.
Ключевые слова: нейронная сеть, граф, терм, анализ, рубрика

The article deals with method of machine learning to classify texts in Russian which uses an artificial neural network.
Keywords: neural network, graph, term, analysis, column

На сегодняшний день, в условиях стремительно растущего объема информации, актуальна задача рубрикации текстов, представленных на естественном языке. Различные решения данной задачи находят свое применение в таких областях, как: обработка новостей, фильтрация спама, классификация библиотечных материалов и т.д. Основными методами решения являются методы машинного обучения (метод Байеса, метод Роше, метод k-ближайших соседей и т.д.), а так же методы, основанных на знаниях (экспертные системы).
В данной работе представлен метод машинного обучения для классификации текстов на русском языке, который использует искусственную нейронную сеть для анализа характеристик текста. Реализованная искусственная нейронная сеть представляет собой многослойный перцептрон. Обучение происходит с помощью классического метода обратного распространения ошибки. В качестве функции активации используется функция Ферми (экспоненциальная сигмоида) 
, где s – уровень входного сигнала, ? – заданный коэффициент.
В свою очередь характеристики текста основываются не только на ключевых словах, но и на словах, связанных с ключевыми по смыслу. Исходными данными является словарь, основанный на толковом словаре Ожегова, в котором представлен перечень термов в нормальной форме. Каждому терму сопоставлен набор термов, связных с ним ассоциативной, синонимиальной и т. д. связью. Таким образом, словарь представляет собой граф, где вершины — слова, а ребра имеют весовые коэффициенты от 0 до 1.
Модифицированным методом Дейсктры находим все вершины графа (термы), удаленные от ключевых термов рубрики на расстоянии, не превышающем заданное значение:

,

где k — вершина графа, Wi — вес ребра с индексом i, n — количество ребер, связующих вершину k с вершиной ключевого терма, t – коэффициент затухания значимости.
Структуру графа иллюстрирует фрагмент, представленный на рисунке 1, где «Автомобиль» - ключевой терм рубрики, «Транспортный», «Средство», «Колесный», «Кабриолет» - термы, расстояние от ключевого терма до которых не превышает заданного значения, «N» - термы, расстояние до которых превысило указанное значение. Размер входного слоя нейронной сети равен количеству ключевых термов рубрики.

 

Рисунок 1 – Граф термов

 

Выходной слой имеет два выхода, по значению которых можно сделать вывод — принадлежит ли текст данной рубрике или нет. Обрабатываемый текст (будь то текст из выборки обучения или текст, рубрику которого необходимо определить) подвергается анализу. Термы текста приводятся к нормальной форме. Для этого задействована библиотека lucene — кроссплатформенная Java библиотека, разработанная компаний Apache, и библиотека russianmorphology [5]. Считается удаленность  терма от каждого ключевого терма рубрики. Полученные значения суммируются с соответствующими значениями других термов текста: ,
где Wi — расстояние от терма i до ключевого терма k, n — количество термов текста. Полученные значения нормируются в зависимости от размера текста. Таким образом, на выходе получаем значения для входного слоя нейронной сети. Далее происходит обучение нейронной сети с помощью обучающей выборки (тексты с заведомо известной рубрикой). И после обучения искусственная нейронная сеть готова к анализу текста.
В качестве примера рассмотрим результаты анализа двух рубрик – автомобили и компьютеры. Эти рубрики имеют несколько общих ключевых термов, например «мощность», «скорость», «объем» и т.д. Полученные результаты тестов дали относительно хороший результат — от 77% до 84% текстов были успешно распознаны (рисунок 2). При этом использовался один слой нейронной сети. Увеличение количества внутренних слоев нейронной сети не дало положительных результатов из-за недостаточного количества примеров обучающей выборки. К частичному улучшению результатов распознавания привели экспертные модификации в исходном словаре термов. Таким образом, основными направлениями на дальнейшее улучшение качества распознавания являются – совершенствование исходного словаря и увеличение обучающей выборки.

 

Рисунок 2 – Количество обработанных тектов

Литература:

  • 1. Automatic Classification Research Group-Методы машинного обучения./ [Электронный ресурс] Режим доступа:http://acrg.ru/algorithms.html
  • 2. Агеев А.М. Методы автоматической рубрикации текстов, основанные на машинном обучении и знаниях экспертов/ [Электронный ресурс] Режим доступа: www.cir.ru/docs/ips/publications/2005_diss_ageev.pdf
  • 3. Дунаев Е.В. Автоматическая рубрикация web-страниц в интернет-каталоге с иерархической структурой  /[Электронный ресурс] Режимдоступа:www.ict.edu.ru/vconf/files/11556.pdf
  • 4. Воронцов К.В. Лекции по искусственным нейронным сетям. / [Электронный ресурс] Режим доступа: http://www.ccas.ru/voron/download/NeuralNets.pdf
  • http://code.google.com/p/russianmorphology/
Комментарии: 1

Таратин Вячеслав Викторович

Интересная статья. Не понятно, почему отнесена к химической технологии? В чём личный вклад автора?
Комментарии: 1

Таратин Вячеслав Викторович

Интересная статья. Не понятно, почему отнесена к химической технологии? В чём личный вклад автора?
Партнеры
 
 
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
image
Would you like to know all the news about GISAP project and be up to date of all news from GISAP? Register for free news right now and you will be receiving them on your e-mail right away as soon as they are published on GISAP portal.