NeuroPro | нейронные сети |
|
Начало Новости Услуги Нейронные сети Программы Статьи Заметки Ссылки Вопросы и ответы Об авторе / контакты |
Рецензия на статью Сенашовой М.Ю. "Нейросетевое разделение на классы объектов с окрестностями" в Материалах XIV международной конференции по нейрокибернетике, Ростов-на-Дону
Продолжаем писать рецензии на статьи красноярских "типа нейросетевиков". Указанная статья является уже пятой подряд перепечаткой - см. ниже список литературы (там же есть и файл рецензируемой статьи: смотрите, высказывайте свое "фи"). Тут я буду ссылаться на нумерацию страниц, которая имеется в тексте файла рецензируемой работы. Всего страниц в статье три, поэтому не думайте, что статья имеет большой объем. Обдумываем название, читаем статью (три первых абзаца можно пропустить - там написаны тривиальные вещи - и смотреть на последний абзац на стр.40 и текст далее) и понимаем, что никакой новизны в постановке задачи "разделения объектов с окрестностями" нет. М.Ю.Сенашова просто демонстрирует незнакомство с базовой статистической гипотезой компактности: объекты одного класса или реализации одного и того же объекта отображаются в близкие точки в пространстве независимых признаков, даже при условии наличия неинформативных независимых признаков - все способы повышения обобщающих способностей модели (кроме робастных методов идентификации, которые нацелены на задачу повышения адекватности модели и только в качестве побочного эффекта повышают и обобщающие способности) нацелены как раз на увеличение объемов этих самых окрестностей, чтобы в дальнейшем, при прогнозировании, шумы в данных не искажали точность решения. Да и искусственно такие "окрестности" для объектов порождают - например, при недостаточном объеме обучающей выборки её пополняют зашумленными копиями эталонных векторов. Всё сказанное применимо без каких-то изменений и к задаче обучения нейронных сетей распознаванию образов. Ничем нейросеть от линейных или нелинейных статистических методов в этом плане не отличается (отличие - в процедуре идентификации модели: итерационное обучение-оптимизация для нейросети, явное и обычно одношаговое решение - для статистики). Почему введен нестандартный термин "объекты с окрестностями", почему нет ссылок ни на какую из публикаций по статистике (или по нейросетям) - непонятно. Повторю - новизны в постановке задачи нет, эта гипотеза является имманентной для любого метода решения задачи классификации с учителем. Ладно, забудем про статистику (может показаться, что я требую суперширокой компетенции от каждого), но в нейроинформатике задача максимизации обобщающих способностей нейросети путем увеличения устойчивости решения к малым колебаниям значений независимых признаков ставилась кучу раз - и для разных вариантов технических решений, и при решении практических задач с использованием нейроимитаторов на обычных компьютерах (например, минимизацией чувствительности выходных сигналов нейронной сети к изменениям входных сигналов: соответственно, такая малочувствительная сеть имеет гораздо более далекие "окрестности" вокруг точек по сравнению с более чувствительной сетью). За 4 года (с момента написания [1] до момента перепечатки [5]) этот вопрос можно было при желании изучить вдоль и поперек и написать хоть что-то новое как по отношению к тексту [1], так и путем выполнения сравнения с существующими алгоритмами, но этого не произошло. Переходим к математической стороне. Стр.41 третий абзац сверху: "Поскольку точки с окрестностями должны пропускаться по нейронной сети, то нелинейные искажения формы существенно осложнят дело - образ эллипсоида может даже потерять выпуклость и т.д.". Но зачем работать в трансформированном нейросетью пространстве, если можно работать в исходном пространстве? Например, можно взять и переформулировать алгоритм "Flat minima search" Хохрейтера и Шмидхубера (ежегодник NIPS 1997 или 1998 года, журнальная статья в те же годы - мне лень искать точные ссылки, но публикации были в изданиях, обязательных к прочтению нейросетевиками) - там явно ставится задача максимизации объема гиперпараллелепипеда, в пределах которого можно безболезненно для точности решения искажать вектор значений весов синапсов сети. По аналогии, без каких-то проблем, можно выписать подобную формулу для значений входных сигналов (для каждого примера выборки явно максимизировать размер его гиперпараллелепипеда невоздействия на правильность решения) - сразу и задача оптимизации будет поставлена (а М.Ю. Сенашовой придется вручную подбирать размер эллипсоида). Не будем долго обсуждать идеи и способы математического решения - перейдем к наиболее убойным моментам. Стр.41 второй абзац снизу, про аппроксимацию действия нелинейной функции нейрона - формула f(x'+εr')=f(x')+εf'(r')=x''+εr''. Как я понимаю, было желание выписать ряд Тейлора, ограниченный после первой производной, но получилось что-то непотребное. Значки ', '' при переменных в статье отображают не производные, а номер преобразованного сигнала, но само-то выражение должно иметь вид (используя нотацию статьи) f(x'+εr')=f(x')+f'(x')εr'=.... Т.е. производная f' должна считаться не при аргументе r' (и почему по r', а не по εr' ???), а при невозмущенном аргументе x'. Поскольку такая ошибка тянется с первых работ и остальной текст статей каждый раз немножко исправлялся, то глаза автора должны были после первого написания формулы еще не раз через нее пройти, а если ошибка осталась и до пятого варианта текста, то это не случай простой невнимательности или опечатки (раз или два можно пропустить - но не пять же раз!), а именно ошибка. Но ошибку в знании базовых основ первого курса ВУЗовской математики у кандидата физматнаук и выпускника матфака (уж на матфаке-то ряд Тейлора должны были вдолбить железно) можно объяснить только прогрессирующей потерей памяти, наступившей уже к моменту написания [1]. Вторая убойная вещь - построение целевой функции (функции оценки) H. Стр.42, формулы: вместо одной константы (вернее, вместо ±1, традиционно кодирующих классы) появилась тоже константа εp. Константа потому, что не говорится, что при обучении сети значение εp будет как-то оптимизироваться (скорее, будет задаваться явно перед обучением сети). Это что же получается? Уже несколько десятилетий спецы, занимавшиеся методами статистики, распознаванием образов, идентификацией, нейросетями и т.д., жили и не знали, что надо всего-то поменять константные коды классов и всем наступит счастье? "Нет, ребята, всё не так. Все не так, ребята". Ну, например, если потребуем от нейросети выдавать не ±1 на выходах, а ±2, то сетка запросто может в два раза по модулю увеличить значения весов синапсов нейронов выходного слоя (усилить сигнал) и оставить те же самые исходные объемы эллипсоидов. Т.е. не существует однозначной связи между требуемыми на выходе сигналами и объемами бассейнов устойчивости решения в пространстве входных сигналов сети - есть промежуточный объект (синапсы сети, да и нелинейные функции нейронов тоже могут быть обучаемыми и изменять значение своей максимальной производной в ходе обучения, т.е. влиять на возможности усиления-ослабления сигналов в сети), который здесь из рассмотрения на качественном уровне выпал. Соответственно вся финальная математика статьи является неправильной, поскольку опровергается приведенным примером с синапсами. Предпоследний абзац статьи. Может сложиться впечатление, что ε проходит сквозь сеть, т.е. нейросеть обучается на трансформированных обучающих данных. Это не так: на входе ничего не искажается (остаются те же самые вектора обучающей выборки) - иначе зачем вводить новые целевые коды для выходных сигналов сети и целевой функции? Можно было бы оставить стандартные плюс-минус единицу и требовать от сетки выдавать эти значения в окрестностях обучающих точек (в точках x+εr), т.е. вести обычное обучение на выборке, пополненной зашумленными копиями исходных векторов данных. В общем, новичок в нейросетях может текст интерпретировать абсолютно не так, как хотелось автору, соответственно оценка статьи снижается еще на один балл из-за нечеткости формулировок. Вердикт: в топку! Как же хочется возродить средневековую инквизицию для сожжения еретических книг заодно с авторами! Но это эмоции, а конструктивный рецепт такой. Субъектом науки или образования автор отрецензированной работы быть не может, поскольку ее "компетентность" является поводом уже для второй моей рецензии, да и спаси Боже вас и ваших детей от учебы у такого преподавателя или научной деятельности под руководством такого ученого. Остается только роль объекта науки (поскольку очевидна полная необучаемость этого индивида - 5 лет бредовый текст пихается в разные места, осознания бредовости не происходит, да и невозможность придумать за 5 лет что-то новое на те же три страницы объема, пусть и столь же бредовое, указывает на полное отсутствие мозгов - роль объекта образования сыграна тоже на "двойку"). М.Ю.Сенашова вполне может выступить подопытной морской свинкой для ученых-нейрофизиологов. Люди в белых халатах, выстраивайтесь в очередь.
|