страница 1 ... страница 4 | страница 5 | страница 6 страница 7 страница 8 ... страница 13 | страница 14
МНОГОСЛОЙНЫЕ СЕТИ С ОБРАТНЫМ РАСПРОСТРАНЕНИЕМ ИНФОРМАЦИИ
К этому классу сетей относятся рекуррентные и рециркуляционные нейронные сети. В рециркуляционных сетях распространение информации осуществляется по двунаправленным связям, имеющим разные весовые коэффициенты в различных направлениях. Обучение рециркуляционных сетей осуществляется без учителя. В отличие от них рекуррентные нейронные сети характеризуются обучением с учителем и обратными связями, по которым передаются результаты обработки сетью данных на предыдущем этапе. Обучение таких сетей базируется на алгоритме обратного распространения ошибки, поэтому их относят к одному классу.
Рекуррентные нейронные сети применяются для решения задач прогнозирования и управления. В 1986 г. Джорданом предложена архитектура рекуррентной сети, в которой выходы элементов последнего слоя соединены с нейронами промежуточного слоя с помощью специальных входных нейронов, называемых контекстными. Количество контекстных нейронов равно числу выходных элементов рекуррентной сети. Функцией активации выходного слоя является линейная функция. Взвешенная сумма i-го элемента промежуточного слоя тогда
где wji – весовой коэффициент между j-ым нейроном входного слоя и i-ым нейроном промежуточного слоя, wki – вес между k-ым контекстным нейроном и i-ым нейроном промежуточного слоя, S0i – смещение i-го нейрона промежуточного слоя, n – размерность входного слоя, p – количество нейронов выходного слоя. Выходное значение i-го нейрона скрытого слоя определяется тогда так:
yi(t)=F(Si(t)).
Нелинейное преобразование в сети осуществляют, как правило, логистическая функция или гиперболический тангенс.
Другой вариант рекуррентной сети предложен Элманом в 1990 г. Выходы нейронных элементов промежуточного слоя такой сети соединяются с контекстными нейронами входного слоя. Количество контекстных нейронных элементов равно числу нейронов промежуточного слоя. Применяются также рекуррентные сети с совмещением этих двух подходов. Алгоритм обучения рекуррентной сети включает следующие шаги:
-
Все контекстные нейроны устанавливаются в нулевое состояние при t=0.
-
Входной образ подается на сеть и осуществляется прямое распространение сигнала.
-
Модифицируются весовые коэффициенты и смещения в соответствии с алгоритмом обратного распространения ошибки.
-
t увеличивается на единицу, и если среднеквадратичная ошибка сети E>Emin, то осуществляется возврат к шагу 2.
Рециркуляционные нейронные сети характеризуются тем, что в процессе обучения нейронной сети, как правило, для каждого входного образа производятся три цикла распространения информации: прямое, обратное и прямое. Пусть xi(0) – входной вектор, поступающий на вход сети в начальный момент времени. Тогда выходной вектор в момент времени t=1 определяется в результате прямого преобразования информации:
.
Вектор, который получается в результате обратного преобразования вектора Y(1):
.
На третьем этапе распространения информации определяется вектор (3):
.
Такое преобразование информации можно представить в виде цепочки, изображенной на рис. 23.
Рис. 23. Последовательное преобразование информации
Тогда ошибка восстановления информации в первом слое нейронной сети определяется как
Ошибка воспроизведения информации во втором слое нейронной сети определяется следующим образом:
Обучение нейронной сети производится как с целью минимизации ошибки E, так и E΄. При этом значение yj(1) в выражении принимается как эталонное. Тогда в соответствии с методом градиентного спуска в пространстве весовых коэффициентов
Определим производные для линейной нейронной сети. Тогда:
В результате выражения для настройки весовых коэффициентов нейронной сети примут следующий вид:
Для получения ортонормированных весовых векторов wk для каждого нейрона необходимо ввести нормированное правило обучения. Пусть Wk=(w1k,w2k,…,wnk) – весовой вектор k-го нейронного элемента. Тогда его длина в момент времени t+1 равна
.
В соответствии с этим нормированное правило обучения для весовых коэффициентов k-го нейрона можно представить следующим
образом:
.
Аналогично производится формирование весовых коэффициентов W′. Обучение осуществляется до тех пор, пока суммарная среднеквадратичная ошибка сети не станет меньше заданной.
Для кумулятивного дельта-правила непростым является выбор подходящего шага обучения , обеспечивающего быстрое достижение минимальной среднеквадратичной ошибки. Для ускорения процесса обучения можно использовать адаптивный шаг обучения. Тогда при настройке весовых коэффициентов сети прямой передачи сигнала величина скорости обучения может определяться как в [2]:
Приведенный алгоритм характеризуется неустойчивостью процесса обучения, и для преодоления этого недостатка можно использовать алгоритм послойной модификации весов, который адекватнее отражает решение рассматриваемой задачи [2].
страница 1 ... страница 4 | страница 5 | страница 6 страница 7 страница 8 ... страница 13 | страница 14
|