Основы теории нейронных сетей


         

что первоначально вес взят равным


Допустим, что первоначально вес взят равным значению в точке
. Если случайные шаги по весу малы, то любые отклонения от точки
увеличивают целевую функцию и будут отвергнуты. Лучшее значение веса, принимаемое в точке
, никогда не будет найдено, и система будет поймана в ловушку локальным минимумом вместо глобального минимума в точке
. Если же случайные коррекции веса очень велики, то как точка
, так и точка


будут часто посещаться, но то же самое будет верно и для каждой другой точки. Вес будет меняться так резко, что он никогда не установится в желаемом минимуме.


Рис. 7.2. 

Полезная стратегия для избежания подобных проблем состоит в больших начальных шагах и постепенном уменьшении размера среднего случайного шага. Это позволяет сети вырываться из локальных минимумов и в то же время гарантирует окончательную стабилизацию сети.

Ловушки локальных минимумов досаждают всем алгоритмам обучения, основанным на поиске минимума (включая персептрон и сети обратного распространения), и представляют серьезную и широко распространенную трудность, которую почему-то часто игнорируют. Стохастические методы позволяют решить эту проблему. Стратегия коррекции весов, вынуждающая веса принимать значение глобального оптимума в точке
, вполне возможна.

В качестве объясняющей аналогии предположим, что на рис. 7.2 изображен шарик на поверхности внутри коробки. Если коробку сильно потрясти в горизонтальном направлении, то шарик будет быстро перекатываться от одного края к другому. Нигде не задерживаясь, в каждый момент времени шарик будет с равной вероятностью находиться в любой точке поверхности.

Если постепенно уменьшать силу встряхивания, то будет достигнуто условие, при котором шарик будет на короткое время "застревать" в точке
. При еще более слабом встряхивании шарик будет на короткое время останавливаться как в точке
, так и в точке
. При непрерывном уменьшении силы встряхивания будет достигнута критическая точка, когда сила встряхивания достаточна для перемещения шарика из точки
в точку
, но недостаточна для того, чтобы шарик мог "вскарабкаться" из
в
.


Содержание  Назад  Вперед