NeuroPro

нейронные сети
и анализ данных

Начало
Новости
Услуги
Нейронные сети
Программы
Статьи
Заметки
Ссылки
Вопросы и ответы
Об авторе / контакты
Заметки

Рецензия на статью Сенашовой М.Ю. "Нейросетевое разделение на классы объектов с окрестностями" в Материалах XIV международной конференции по нейрокибернетике, Ростов-на-Дону - 2005. - т.2. - с.40-42.

  Не можешь поразить подвигами - замучай чушью.
Л.М.Буджолд, "Память"

Продолжаем писать рецензии на статьи красноярских "типа нейросетевиков". Указанная статья является уже пятой подряд перепечаткой - см. ниже список литературы (там же есть и файл рецензируемой статьи: смотрите, высказывайте свое "фи").

Тут я буду ссылаться на нумерацию страниц, которая имеется в тексте файла рецензируемой работы. Всего страниц в статье три, поэтому не думайте, что статья имеет большой объем.

Обдумываем название, читаем статью (три первых абзаца можно пропустить - там написаны тривиальные вещи - и смотреть на последний абзац на стр.40 и текст далее) и понимаем, что никакой новизны в постановке задачи "разделения объектов с окрестностями" нет. М.Ю.Сенашова просто демонстрирует незнакомство с базовой статистической гипотезой компактности: объекты одного класса или реализации одного и того же объекта отображаются в близкие точки в пространстве независимых признаков, даже при условии наличия неинформативных независимых признаков - все способы повышения обобщающих способностей модели (кроме робастных методов идентификации, которые нацелены на задачу повышения адекватности модели и только в качестве побочного эффекта повышают и обобщающие способности) нацелены как раз на увеличение объемов этих самых окрестностей, чтобы в дальнейшем, при прогнозировании, шумы в данных не искажали точность решения. Да и искусственно такие "окрестности" для объектов порождают - например, при недостаточном объеме обучающей выборки её пополняют зашумленными копиями эталонных векторов. Всё сказанное применимо без каких-то изменений и к задаче обучения нейронных сетей распознаванию образов. Ничем нейросеть от линейных или нелинейных статистических методов в этом плане не отличается (отличие - в процедуре идентификации модели: итерационное обучение-оптимизация для нейросети, явное и обычно одношаговое решение - для статистики). Почему введен нестандартный термин "объекты с окрестностями", почему нет ссылок ни на какую из публикаций по статистике (или по нейросетям) - непонятно. Повторю - новизны в постановке задачи нет, эта гипотеза является имманентной для любого метода решения задачи классификации с учителем.

Ладно, забудем про статистику (может показаться, что я требую суперширокой компетенции от каждого), но в нейроинформатике задача максимизации обобщающих способностей нейросети путем увеличения устойчивости решения к малым колебаниям значений независимых признаков ставилась кучу раз - и для разных вариантов технических решений, и при решении практических задач с использованием нейроимитаторов на обычных компьютерах (например, минимизацией чувствительности выходных сигналов нейронной сети к изменениям входных сигналов: соответственно, такая малочувствительная сеть имеет гораздо более далекие "окрестности" вокруг точек по сравнению с более чувствительной сетью). За 4 года (с момента написания [1] до момента перепечатки [5]) этот вопрос можно было при желании изучить вдоль и поперек и написать хоть что-то новое как по отношению к тексту [1], так и путем выполнения сравнения с существующими алгоритмами, но этого не произошло.

Переходим к математической стороне. Стр.41 третий абзац сверху: "Поскольку точки с окрестностями должны пропускаться по нейронной сети, то нелинейные искажения формы существенно осложнят дело - образ эллипсоида может даже потерять выпуклость и т.д.". Но зачем работать в трансформированном нейросетью пространстве, если можно работать в исходном пространстве? Например, можно взять и переформулировать алгоритм "Flat minima search" Хохрейтера и Шмидхубера (ежегодник NIPS 1997 или 1998 года, журнальная статья в те же годы - мне лень искать точные ссылки, но публикации были в изданиях, обязательных к прочтению нейросетевиками) - там явно ставится задача максимизации объема гиперпараллелепипеда, в пределах которого можно безболезненно для точности решения искажать вектор значений весов синапсов сети. По аналогии, без каких-то проблем, можно выписать подобную формулу для значений входных сигналов (для каждого примера выборки явно максимизировать размер его гиперпараллелепипеда невоздействия на правильность решения) - сразу и задача оптимизации будет поставлена (а М.Ю. Сенашовой придется вручную подбирать размер эллипсоида).

Не будем долго обсуждать идеи и способы математического решения - перейдем к наиболее убойным моментам. Стр.41 второй абзац снизу, про аппроксимацию действия нелинейной функции нейрона - формула f(x'+εr')=f(x')+εf'(r')=x''+εr''. Как я понимаю, было желание выписать ряд Тейлора, ограниченный после первой производной, но получилось что-то непотребное. Значки ', '' при переменных в статье отображают не производные, а номер преобразованного сигнала, но само-то выражение должно иметь вид (используя нотацию статьи) f(x'+εr')=f(x')+f'(x')εr'=.... Т.е. производная f' должна считаться не при аргументе r' (и почему по r', а не по εr' ???), а при невозмущенном аргументе x'. Поскольку такая ошибка тянется с первых работ и остальной текст статей каждый раз немножко исправлялся, то глаза автора должны были после первого написания формулы еще не раз через нее пройти, а если ошибка осталась и до пятого варианта текста, то это не случай простой невнимательности или опечатки (раз или два можно пропустить - но не пять же раз!), а именно ошибка. Но ошибку в знании базовых основ первого курса ВУЗовской математики у кандидата физматнаук и выпускника матфака (уж на матфаке-то ряд Тейлора должны были вдолбить железно) можно объяснить только прогрессирующей потерей памяти, наступившей уже к моменту написания [1].

Вторая убойная вещь - построение целевой функции (функции оценки) H. Стр.42, формулы: вместо одной константы (вернее, вместо ±1, традиционно кодирующих классы) появилась тоже константа εp. Константа потому, что не говорится, что при обучении сети значение εp будет как-то оптимизироваться (скорее, будет задаваться явно перед обучением сети). Это что же получается? Уже несколько десятилетий спецы, занимавшиеся методами статистики, распознаванием образов, идентификацией, нейросетями и т.д., жили и не знали, что надо всего-то поменять константные коды классов и всем наступит счастье? "Нет, ребята, всё не так. Все не так, ребята". Ну, например, если потребуем от нейросети выдавать не ±1 на выходах, а ±2, то сетка запросто может в два раза по модулю увеличить значения весов синапсов нейронов выходного слоя (усилить сигнал) и оставить те же самые исходные объемы эллипсоидов. Т.е. не существует однозначной связи между требуемыми на выходе сигналами и объемами бассейнов устойчивости решения в пространстве входных сигналов сети - есть промежуточный объект (синапсы сети, да и нелинейные функции нейронов тоже могут быть обучаемыми и изменять значение своей максимальной производной в ходе обучения, т.е. влиять на возможности усиления-ослабления сигналов в сети), который здесь из рассмотрения на качественном уровне выпал. Соответственно вся финальная математика статьи является неправильной, поскольку опровергается приведенным примером с синапсами.

Предпоследний абзац статьи. Может сложиться впечатление, что ε проходит сквозь сеть, т.е. нейросеть обучается на трансформированных обучающих данных. Это не так: на входе ничего не искажается (остаются те же самые вектора обучающей выборки) - иначе зачем вводить новые целевые коды для выходных сигналов сети и целевой функции? Можно было бы оставить стандартные плюс-минус единицу и требовать от сетки выдавать эти значения в окрестностях обучающих точек (в точках x+εr), т.е. вести обычное обучение на выборке, пополненной зашумленными копиями исходных векторов данных. В общем, новичок в нейросетях может текст интерпретировать абсолютно не так, как хотелось автору, соответственно оценка статьи снижается еще на один балл из-за нечеткости формулировок.

Вердикт: в топку! Как же хочется возродить средневековую инквизицию для сожжения еретических книг заодно с авторами! Но это эмоции, а конструктивный рецепт такой. Субъектом науки или образования автор отрецензированной работы быть не может, поскольку ее "компетентность" является поводом уже для второй моей рецензии, да и спаси Боже вас и ваших детей от учебы у такого преподавателя или научной деятельности под руководством такого ученого. Остается только роль объекта науки (поскольку очевидна полная необучаемость этого индивида - 5 лет бредовый текст пихается в разные места, осознания бредовости не происходит, да и невозможность придумать за 5 лет что-то новое на те же три страницы объема, пусть и столь же бредовое, указывает на полное отсутствие мозгов - роль объекта образования сыграна тоже на "двойку"). М.Ю.Сенашова вполне может выступить подопытной морской свинкой для ученых-нейрофизиологов. Люди в белых халатах, выстраивайтесь в очередь.

Список "работ"
1. Сенашова М.Ю. Нейросетевое разделение на классы объектов с окрестностями // Тези доповiдей Украiнcкого математичного конгресу-2001. Секцiя 13. Математична теорiя управлiння. - Iнститут математики НАН Украiни. 2001. - C. 25-27.
2. Сенашова М.Ю. Разделение на классы объектов с окрестностями при помощи нейросетей // Проблемы нейрокибернетики. / Материалы Юбилейной междунар. конф. по нейрокибернетике. Ростов-на-Дону. 2002. - Т.2. - С.39-41.
3. Сенашова М.Ю. Классификация объектов с окрестностями при помощи нейросетей // Материалы V Всерос. семинара "Моделирование неравновесных систем". - Красноярск. 2002. - C.143-145.
4. Сенашова М.Ю. Разделение на классы объектов с окрестностями при помощи нейронных сетей // Тез. докл. III Всесибирского конгресса женщин-математиков. - Красноярск. 2004. - С.115-116.
5. Сенашова М.Ю. Нейросетевое разделение на классы объектов с окрестностями // Материалы XIV международной конференции по нейрокибернетике. Ростов-на-Дону. 2005. - т.2. - с.40-42. pdf-файл размером 267кб.