NeuroPro

нейронные сети
и анализ данных

Главная
Новости
Услуги
Нейронные сети
Программы
Статьи
Заметки
Ссылки
Вопросы и ответы
Об авторе / контакты
Заметки

Рецензия на статью Жукова Л.А., Решетниковой Н.В. "Исследование различных вариантов контрастирования и бинаризации нейронных сетей для обработки медицинских данных" в журнале "Радiоелектронiка. Iнформатика. Управлiння" №2, 2004

Честно говоря, было лень начинать писать рецензии. Статей и книг по искусственным нейронным сетям − громадная куча, которую никаким числом рецензий не объять. Поэтому рецензии будут обусловлены, в основном, политическими мотивами или очередным переполнением терпения, после которого я снова буду повторять прописные истины. Соответственно, подразделом в заметках для рецензий выбраны "мифы нашего городка" − ограничимся местным зоопарком, хоть статья и вышла в украинском журнале.

Я уже давно в статьях и заметках поднимаю вопрос о методологии адекватного нейромоделирования. Это и статья "Взгляд на архитектуру и требования к нейроимитатору для решения современных индустриальных задач", и краткое освещение смежных вопросов в других статьях, и специальная заметка про нейросети и кривые обучения. Вот эту-то тему адекватности нейромоделей и будет развивать данная рецензия.

А именно, здесь утверждается следующее: неадекватную нейросеть нельзя брать за базу для сравнения, пусть даже сравниваемые с ней другие нейронные сети и являются более адекватными, поскольку возникают ложные тренды, которые, тем не менее, авторы интерпретируют и экстраполируют.

Рассматриваемая статья об адекватности нейронной сети не задумывается и, соответственно, налетает на все методологические подводные камни. Вдобавок, авторы, не представляя себе назначения и свойств используемых методов, азартно забивают гвозди микроскопом − это будет второй темой рецензции.

Авторы во введении говорят: "...в данной работе не ставилась задача достижения наилучших результатов тестирования", заявив чуть выше, что целью работы они как раз поставили выявление влияния проводимых над нейросетью "процедур" на качество тестирования. Обсудим такую позицию. Если начальная нейронная сеть оптимальна по точности прогноза, то точность можно либо сохранить, либо ухудшить. Если же сеть неоптимальна, то точность можно и улучшить, и ухудшить. Причем действие "процедуры" может быть нелинейным: сначала улучшение, затем ухудшение до состояния хуже, чем начальное, или наоборот. Такой пример нелинейной зависимости есть в [1] − хоть та статья и про контрастирование входных сигналов сети, но входные сигналы и в рецензируемой работе были отконтрастированы "за компанию" при контрастировании синапсов. Поэтому для иллюстрации факта существования нелинейной зависимости эффекта статья [1] подойдет. Но наши авторы были ограничены конкретными настройками конкретной "процедуры", без возможности отслеживания всех эффектов в динамике, поэтому возможную нелинейность эффекта не обнаружили бы. Т.е. куда авторов, в лучших традициях Ивана Сусанина, завела "процедура" контрастирования, ту конечную ситуацию они и обсуждают на качественном уровне, без возможности отсеять постороннее влияние.

Лучше всего примененный в работе подход можно описать так. Оторвали мушке крылышко − жужжит муха. Оторвали последнее − перестала жужжать. Делаем вывод, что оставить одно крыло можно без проблем для самой мухи. Т.е. проводим над нейронной сетью терапию до полной потери функциональности (причем функциональности с точки зрения самой вивисекторской "процедуры"), а затем откатываемся на предыдущий шаг. Но и на предыдущем шаге нейросеть могла быть очень и очень близка к издыханию − поэтому одношаговый откат может и не быть оптимальным. Т.е. хоть процедура редукции сети и может быть средством для достижения оптимума некоторого другого критерия (например, обобщающих способностей нейросети), но авторы берут за инструментальный критерий именно успешность выполнения процедуры упрощения с точки зрения самой этой процедуры, а изучать-то хотят улучшение или ухудшение обобщающих свойств нейронной сети. Более того, примененный авторами нейроимитатор никак и не утверждает, что реализованная там "процедура" является оптимальной именно в плане обеспечения максимума обобщающих способностей − наоборот, она там реализовывалась совсем под другие цели.

Далее. Объем обучающей выборки − 158 примеров, а число адаптивных параметров (синапсов) исходной нейросети (указано цифрой в Разделе 4 статьи, но вычислимо и по приводимым в статье размерам нейросети) − 721 синапс. Очевидно, что задача недоопределена и значений синапсов однозначно не идентифицировать. Хотя чудеса, конечно, в мире встречаются, да и методы для таких ситуаций разработаны. Но таких дополнительных методов (типа регуляризации решения) при обучении нейросети не используется (не позволяет использованная авторами нейропрограмма − ну так что, альтернатив что-ли в мире нет?). Авторы просто берут нейросеть предлагаемого по умолчанию размера, не предполагая, что этот стартовый вариант в их конкретном случае очень далек от оптимального, соответственно эта начальная точка отсчета приемлемым вариантом не является (т.к. размер нейронной сети неадекватен размеру выборки).

На неверность стартового размера нейронной сети указывает и значительный разброс числа правильно решенных примеров тестовой выборки (цифры из Таблицы 1 статьи) − от 74.65 до 94.37% от объема тестовой выборки, т.е. разброс между минимумом и максимумом аж целых 20% при среднем значении в 86.41%. Но внимания на нестабильность решения не обращают.

Что же мы видим, когда нейросети начинают устраивать вивисекцию путем запуска процедуры контрастирования - удаления из нейронной сети неинформативных или избыточных входных сигналов и элементов (синапсов, нейронов). А видим, что аж два раза повторенные на картинках (Рис.1б, 2б) минимальные структуры нейросетей (при разных вариантах контрастирования) имеют по одному нейрону в каждом скрытом слое, т.е. у сетей в самом "лучшем" случае (с точки зрения процедуры контрастирования, когда чем больше элементов удалено, тем "лучше") наличествует всего 3 скрытых нейрона вместо начальных тридцати (3 слоя по десять нейронов в каждом). Вот и подтверждение чрезвычайной начальной избыточности нейронной сети. Да и три скрытых нейрона, наверно, тоже много − может хватить и одного, если взять сетку с одним скрытым слоем, поскольку эти три нейрона просто передают информацию со слоя на слой. А может (прошу простить за крамольную мысль), и нейросетей тут не надо и задача решается обычной множественной линейной регрессией? Вот только зачем авторы предварительно наставили себе на пути трудностей, а потом героически их преодолели (попутно получив совершенно бешеные цифры о возможности удаления аж 94% от начального числа синапсов сети), когда можно было изначально взять сетку поменьше? Поскольку, повторю, начальная нейросеть является неадекватной и базой для сравнения с последующими результатами (адекватными или нет − неважно) служить не может.

А что показывают отконтрастированные нейросети в плане точности обобщения? Очень милые цифры (из Таблицы 2): средняя точность в 95.13% правильных ответов и малый разброс точности − от 93.67% до 98.10%, т.е. результат стал существенно лучше и стабильнее. Но такой рост точности обобщения никак нельзя интерпретировать рекомендацией использования контрастирования всегда и везде − нужно просто изначально выбирать оптимальный размер сети, и лишних действий вообще не потребуется. Это подтверждается и Таблицей 3 результатов бинаризации исходной большой сети − средняя точность остается на уровне 83.45% (правда, с небольшим уменьшением разброса точности между попытками), т.е. без редукции размера сети в этой задаче точности не улучшить. Поэтому контрастирование − просто один из способов уменьшения размера сети до приемлемого, причем один из наиболее затратных по требуемому объему вычислений. Какова же будет при этом динамика изменения обобщающей способности нейронной сети - надо проверять после контрастирования каждого очередного элемента, чтобы определить в итоге оптимальный размер нейросети, соответствующий максимуму обобщения.

С контрастированием синапсов закончили − оценим необходимость и правильность применения бинаризации (приведения весов синапсов к значениям из множества {-1,1}). Бредовость применения бинаризации к исходной большой нейросети очевидна всем, кто хоть сколько-нибудь интересовался вопросом о том, что же влияет на обобщающие способности нейросети. Назову хотя бы широко известные и массово цитируемые циклы работ Ш.Амари с соавторами и П.Бартлетта (например, статьи [2,3]). У них один общий результат − необходимость уменьшения (по модулю) значений весов синапсов сети и/или частных производных целевой функции (либо производных выходных сигналов сети) по значениям весов синапсов (или значениям входных сигналов сети − в случае регуляризации решения). А поскольку веса синапсов входят в производные мультипликативно, то переход от распределения весов синапсов в интервале [-1,1] (как реализовано в нейроимитаторе), когда основная масса весов может быть сосредоточена около нуля и поэтому быть малой по модулю, к дискретным весам -1 или 1 увеличит модули весов синапсов и соответствующие производные и поэтому обобщающие способности нейронной сети никак не улучшит. Никто и никогда не предлагал использовать бинаризацию для повышения обобщающих способностей − наши авторы здесь впереди планеты всей, но это только демонстрирует их незнакомство с теоретическими достижениями десятилетней давности.

Более того, выше я сказал, что реализованная в программе процедура контрастирования/бинаризации не была изначально нацелена на задачу повышения обобщающих способностей нейронных сетей. Есть алгоритмы контрастирования, явно решающие эту задачу, например, [4]. Далее, большое число разработанных методов контрастирования (в обзоре [5] указано около сорока зарубежных статей) не позволяет утверждать, что никто из их авторов не задумывался о влиянии контрастирования на обобщающие способности нейронной сети. Задумывались, и эксперименты проводили, и спецметоды разрабатывали. В названиях статей [4,6,7,8] слово "generalization" как раз и означает "обобщающую способность" на английском (слова "pruning", "weight decay", "weight elimination" означают контрастирование теми или иными методами), а название ежегодника "Advances in ..." (т.е. "Достижения в ...", где вышли статьи [7,8]) говорит и о том, что в начале 1990-х вопрос о влиянии контрастирования на обобщение мог являться достижением в нейроинформатике, но в начале 2000-х годов − вряд ли. Т.е. на самом деле всё давно изучено на гораздо более подробном уровне, чем в разбираемой статье.

Теперь о названии статьи − об "исследовании различных вариантов контрастирования и бинаризации" синапсов. Никаких различных вариантов нет, метод используется единственный, меняется только число и порядок выполнения действий над нейросетью. Поскольку бинаризация здесь нужна нейронным сетям как рыбе зонтик, три четверти всех результатов (где бинаризация присутствует) сразу можно выкинуть. Остается контрастирование само по себе − но насчет него выше было сказано, что начальная точка отсчета была некорректной (нейросеть исходно была неадекватной, и исправлению ситуации могло послужить не только и не обязательно контрастирование), и что ожидание линейности эффекта от контрастирования − сильно уж оптимистичное (да и просто неверное) утверждение.

Конечно, меня можно спросить о том, почему я так строг в плане требования адекватности нейромоделей, если в работе исследовались просто специальные методы трансформации начальной нейросети в другую сеть (меньшего размера) − ведь задача редукции не подразумевает обязательного соответствия начальной и конечной сети критерию адекватности нейромодели. Может я тут просто необоснованно ругаюсь, а сами авторы просто использовали описанную в статье задачу как тестовый полигон для проверки того, чего же от процедур контрастирования ожидать? Но поскольку авторы предлагают использовать описанный в работе подход для других задач медицинской диагностики и задач в других проблемных областях, то они предполагают экстраполируемость увиденных в работе свойств и эффектов и на другие ситуации. А я не согласен с тем, что в работе надо обязательно идти от неадекватных начальных приближений, и с тем, что предлагаемые результаты и выводы можно однозначно экстраполировать.

В завершение скажем, что отрецензированная статья доступна в виде pdf-файла размером в 225кб.

А вердикт такой − рекомендуется читать современные и достаточно полные учебники по нейронным сетям, дабы не напоминать представителя известной народности крайнего Севера, не читателя, а писателя. И при подготовке статьи в международный журнал вдобавок знакомиться с международным же опытом, дабы через 10 лет не переоткрывать известных вещей или демонстрировать незнакомство с ними.

Литература
1. Caruana R.A., de Sa V.R. Benefitting from the variables that variable selection discards / Journal of Machine Learning Research. 2003. Vol.3. - pp.1245-1264.
2. Murata Т., Yoshizawa S., Amari S. Learning curves, model selection and complexity of neural networks / Advances in Neural Information Processing Systems 5 (1992). Morgan Kaufmann, 1993. - pp.607-614.
3. Bartlett P.L. For valid generalization, the size of the weights is more important than the size of the network / Advances in Neural Information Processing Systems 9 (1996). MIT Press, 1997. - pp.134-140.
4. Burrascano P. A pruning technique maximizing generalization / Proc. Int. Joint Conf. on Neural Networks (IJCNN'93), Nagoya, Japan. 1993. - pp.347-350.
5. Царегородцев В.Г. Упрощение нейронных сетей - цели, идеи и методы // Нейрокомпьютеры: разработка, применение. 2002. №4. - С.5-13.
6. Thodberg H.H. Improving generalization of neural networks / Proc. Int. Journal of Neural Systems, 1991. Vol.1. №4. - pp.317-325.
7. Weigend A., Rumelhart D., Huberman B. Generalization by weights-elimination with application to forecasting / Advances in Neural Information Processing Systems 3 (1990), Morgan Kaufmann, 1991. - pp.875-882.
8. Krogh A., Hertz J. A simple weight decay can improve generalization / Advances in Neural Information Processing Systems 4 (1991), Morgan Kaufmann, 1992. - pp.950-957.