NeuroPro

нейронные сети
и анализ данных

Главная
Новости
Услуги
Нейронные сети
Программы
Статьи
Заметки
Ссылки
Вопросы и ответы
Об авторе / контакты
Заметки

Об эффективности алгоритмов обучения многослойных персептронов - предсказания сбываются?

Разговор отталкивается от моего доклада "Взгляд на архитектуру и требования к нейроимитатору для решения современных индустриальных задач" (pdf-файл, 208кб). Доклад готовился в начале лета 2003г и был подан на Международную конференцию "Вычислительные и информационные технологии в науке, технике и образовании" (Казахстан) и на семинар по нейроинформатике в Красноярске. В конце доклада я кратко написал, что наблюдаю в мире искусственных нейронных сетей тенденцию возвращения к простым алгоритмам. И мой опыт экспериментальной проверки отдельных вопросов это, в принципе, подтверждал. Кое-что в плане дополнительных исследований и экспериментов я запланировал и даже начал проводить.

Поэтому радостным и одновременно неожиданным стало для меня 14 ноября 2003г посещение сайта американского профессора Тони Мартинеза, работу которого я в докладе цитировал, и обнаружение буквально на днях выходящей в журнале Neural Networks его новой статьи Wilson D.R., Martinez T.R. The general inefficiency of batch training for gradient descent learning / Neural Networks, 2003. Vol.16. Issue 10 (december 2003). - pp.1429-1451.

В этой работе теоретически и экспериментально доказывается меньшая эффективность обучения нейронной сети по суммарному градиенту обучающей выборки по сравнению с online-обучением (коррекцией сразу после того, как алгоритм обратного распространения ошибки вычислит градиент очередного примера). Конечно, надстройка над суммарным градиентом еще более сложных методов, таких, как оптимизация шага вдоль направления коррекции, использование более эффективного, по сравнению с градиентным, направления (например, направления сопряженных градиентов) ликвидируют проигрыш "пакетного" (batch) обучения в скорости, но зачастую приводят к другим проблемам, например, переобучению нейронной сети (см. цитированную в вышеназванной моей статье работу S. Lawrence и C. Lee Giles).

И что мне оставалось делать? Правильно, на базе новой информации, переосмысления старых результатов, вопросов и идей я целенаправленно спланировал эксперименты по уточнению поднятых вопросов.

Итогом стала следующая статья: Царегородцев В.Г. Общая неэффективность использования суммарного градиента выборки при обучении нейронной сети // XII Всеросс. семинар "Нейроинформатика и ее приложения", Красноярск, 2004. - 196с. - С.145-151. pdf-файл, 216кб. Результаты в принципе совпали с результатами Мартинеза и также подтверждаются вышедшей в 2004г статьей Леона Ботту и Яна ЛеКуна (см. последнюю ссылку в списке литературы в указанной в этом абзаце моей статье).