NeuroPro

нейронные сети
и анализ данных

Главная
Новости
Услуги
Нейронные сети
Программы
Статьи
Заметки
Ссылки
Вопросы и ответы
Об авторе / контакты
Заметки

Рецензия на статью Сенашовой М.Ю. "Быстрое дифференцирование на графах. Вычисление вторых производных сложных функций многих переменных"

Продолжаем писать рецензии на статьи людей из Красноярска. Рассматриваемая статья хоть и не сильно свежая, но демонстрирует "широту" кругозора этих "специалистов". В названии статьи тема нейронных сетей не фигурирует, но статья посвящена нейронным сетям и развитию метода обратного распространения ошибки.

Пересказывать содержание, фактически, одинаковых ("найдите 10 отличий") статей [1,2] не буду - отсканированный текст статьи [1] доступен по ссылке ниже, желающие прочитают сами. Нам важно то, что статьи озвучивают задачу вычисления вторых производных целевой функции (или выходных сигналов нейросети) по весам синапсов сети, и дают пример расчета градиента от некоторого функционала от градиента целевой функции (наблюдается некоторый уход в сторону от основной задачи, но формально, при аналитической записи формул, вторые производные там возникают).

Формально, в [1,2] нет ничего нового по сравнению с изложением этой же самой задачи и этого же самого примера в [3] в 1990г и последующим пересказом в [4,5]. Однако, стиль изложения [1,2] во многом скрывает авторство А.Н.Горбаня. Отличия [1,2] от [3,4] касаются, в основном, оформления - так, рис.1 в [1] скопирован из книги [5], а основной смысл и формулы совпадают с оригиналом 1990-го года [3].

Оценим работы [1,2] c точки зрения мирового уровня. Работа [3] в момент издания в 1990г в плане решения задачи вычислений вторых производных в нейросетях была на уровне передовых забугорных достижений. Но уже в 1991-92гг Ян ЛеКун с соавтором для той же самой задачи вычисления градиента функционала градиента предложили в [6,7] вдобавок еще и упрощение схемы вычислений, названное partial (т.е. частичный, фрагментарный взамен полного) double back propagation, провели компьютерное моделирование и дали цифры ухудшения результатов при использовании упрощенной схемы по сравнению с полной схемой вычислений. Т.е. за рубежом даже в области рассматриваемого в [1,2] примера сразу же после 1990-го года в теории и практике шагнули дальше.

Более того, в [1,2] задача вычисления вторых производных никак не накладывается на реальную практику и излагается сама по себе (математики любят писать формулы ради самих формул), а у ЛеКуна дан реальный пример использования вторых производных для задачи регуляризации решения нейронной сети по Тихонову, указаны цифры получаемого при этом эффекта улучшения обобщающих способностей нейронной сети по сравнению с обучением без регуляризации. Думаю, что любой читатель только поприветствует такую заботу о нем - вместо того, чтобы думать, как вычисленные вторые производные использовать (не все ведь знакомы с тихоновской регуляризацией), читатель ЛеКуна получает краткое описание идеи практического применения и алгоритм ее реализации. М.Ю.Сенашова же о читателях, не заканчивавших матфак или мехмат университета, не заботится.

В обобщенном же вопросе вычисления вторых производных в нейросетях объем зарубежных работ привел в 1994г к выходу статьи-обзора [8], направленного в редакцию журнала аж в 1992г (т.е. вот когда необходимость в обзоре возникла - уже в 1992г число работ по данной тематике превысило единицы!). Пересказ в 2000-01гг (годах публикования [1,2]) результатов 1990г (причем только части известных миру на 1990г научных достижений - у А.Н.Горбаня ведь тоже не всё известное на тот момент было описано) является научной недобросовестностью. Но это просто особенность мЫшления автора [1,2] такая - что за рубежом ученые лаптем щи хлебают, а мы всегда и везде впереди планеты всей, и что прогресса в нейроинформатике нет (поэтому можно через десять лет после выхода книги [3] пересказывать ее результаты и ожидать, что они по прежнему будут передовыми). Уверяю, что прогресс в нейроинформатике идет бешеными темпами, поэтому попытки переоткрыть Америку ничего, кроме смеха, не вызывают - поскольку чаще всего получится хуже, чем было у забугорных авторов.

Лень приводить полный список достижений буржуинов в этой области - можно залезть в интернет-поисковик или в CiteSeer и найти работы, цитирующие [6,7,8], и процитированные в [8] статьи. Из других имен, поскольку в науке часта ситуация, когда открытия делаются разными исследователями одновременно и параллельно в разных местах, и становятся затем известными разным кругам людей (так что через некоторое время при соприкосновении этих кругов возникает достаточно сильная неожиданность), можно упомянуть работы Фабриса Росси о вторых дифференциалах в произвольных нейросетях в 1995-96гг - там упор был сделан на аналитическое описание и представление, статьи эти в интернете тоже есть. Но у Росси все-таки была оригинальность результатов, а в [1,2] новизны нет.

Как резюме - читайте лучше обзор [8], а отрецензированную работу - в топку.

Литература
1. Сенашова М.Ю. Быстрое дифференцирование на графах. Вычисление вторых производных сложных функций многих переменных // Труды Всеросс. семинара "Современные подходы к интеграции информационных технологий" / Информационные технологии в энергетике. - Иркутск: ИСЭМ СО РАН. - 2001. - С.179-186. zip-файл размером в 2.6мб c tiff-картинками внутри.
2. Сенашова М.Ю. Быстрое дифференцирование. Вычисление вторых производных сложных функций многих переменных // Труды 2-ой Всеросс. научно-технической конференции "Нейроинформатика-2000". - М.: МИФИ. - 2000. - Ч.1. - С.129-135.
3. Горбань А.Н. Обучение нейронных сетей. М.: ПараГраф, 1990. - 160с.
4. Горбань А.Н., Россиев Д.А. Нейронные сети на персональном компьютере. - Новосибирск: Наука, 1996. - 276с.
5. Горбань А.Н. , Дунин-Барковский В.Л., Кирдин А.Н. и др. Нейроинформатика. Новосибирск: Наука, 1998. - 296с.
6. Drucker H., LeCun Y. Double Backpropagation: Increasing Generalization Performance / Proc. Int. Joint Conf. on Neural Networks, Seattle, USA, 1991. - pp.145-150.
7. Drucker H., LeCun Y. Improving Generalization Performance Using Double Backpropagation / IEEE Trans. on Neural Networks, 1992. Vol.3, N6 - pp.991-997.
8. Buntine W.L., Weigend A.S. Computing Second Derivatives in Feed-Forward Networks: A Review / IEEE Trans. on Neural Networks, 1994. Vol.5. N3. - pp.480-488.