NeuroPro | нейронные сети |
|
Начало Новости Услуги Нейронные сети Программы Статьи Заметки Ссылки Вопросы и ответы Об авторе / контакты |
Распознавание лиц и распознавание желаний и эмоцийЯнварский номер за 2009г (Vol.72, issues 4-6) журнала Neurocomputing содержит 5 статей по распознаванию лиц (четыре статьи - от китайских авторов, еще одна - от турецких), еще две тамошних статьи китайцев касаются алгоритмов построения главных компонент и тестируются на базах фотографий лиц. Статьи эти включают и ссылки на несколько свободно доступных баз фотографий. А если уж даже китайцы "и прочие шведы" стали массово экспериментировать с задачами распознавания лиц, то всем остальным остается либо переходить к внедрению в практику и коммерциализации результатов, либо придумывать новые варианты постановок задач. Данная заметка - об одном возможном рыночном продукте. Журнал в №37 за 2009г писал: "Уже существуют технологии, при которых сигналы мозга управляют курсором компьютера или позволяют через компьютер и синтезатор речи больному с параличом после инсульта произносить звуки". Но это требует цепляния датчиков к голове и более сложной аппаратуры, чем, например, подключенная к компьютеру веб-камера. Поэтому не будем отвлекаться от распознавания лиц. На настоящий момент, кроме военно-охранных систем и систем аутентификации, конечный пользователь не получил ничего особо полезного от всех достижений в области распознавания лиц. Максимум - это возможность автоматического входа-логина под нужной учетной записью на компьютере, оборудованном веб-камерой (и то такая возможность часто избыточна - например, реализована в нетбуке Lenovo S10-2, но нетбук-то вещь персональная, а не многопользовательская). Поэтому проанализируем возможность стыковки задачи распознавания лиц с отдельными наблюдающимися или перспективными трендами в компьютерных и информационных технологиях. Такими трендами являются переход к широкоэкранным мониторам (wide screen) и виджет-технологии в web 2.0. Широкоэкранники (вернее, предпочтительный для них способ распределения нескольких окон или разных программ по экрану, если надо глядеть сразу в несколько мест) заставляют активно вертеть если не головой, то глазами. Виджеты же представляют собой взаимодействующие с интернет приложения, отражающие ту или иную информацию и обновляющие её по мере обновления этой информации в интернете - а поскольку наиболее распространенными виджетами являются показывалки прогноза погоды, биржевых курсов, новостевых лент и т.п., то размеры окон виджетов малы и этим стимулируют пользователя к их размещению по краям экрана (там, где осталось свободное место от окон основной программы, с которой работает пользователь), т.е. при работе с большим настольным широкоэкранным монитором действительно приходится крутить головой. А третий тренд или факт - оснащение компьютеров и ноутбуков веб-камерами с довольно высоким (до двух мегапикселей) разрешением, достаточным для качественного распознавания не только лиц сидящих за компьютером, но и их мимики и движений глаз. Отсюда следует гипотеза о возможности появления управляющего софта, распознающего повороты лица и/или глаз пользователя и, например, переключающегося на то приложение, куда стал направлен взгляд - чтобы пользователь не тыкал лишний раз мышкой или не пользовался клавиатурой для переключения на другое приложение. Также возможно уменьшение размеров и содержания окон неактивных приложений и виджетов и их автоматическое развертывание до исходного размера только при взгляде пользователя (чтобы уместить на экране больше окон и запущенных программ). Движения головы вверх или вниз могут служить командой для прокручивания страницы текста в соответствующем направлении. Мимика, например, нахмуренные или поднятые вверх брови, может служить индикатором непонятности того места текста, на который брошен взгляд, и приводить к автоматическому поиску в интернете с запросом, как-то (это уже задача для алгоритмов семантического анализа текста) составленным из данного фрагмента текста. В общем, чем дальше, тем сильнее можно интерпретировать перечисленные возможности как движение от распознавания лиц к распознаванию желаний и эмоций пользователя. Естественно, хочется, чтобы такой софт был обучаемым или дообучаемым (т.е. настраиваемым на лицо и мимику конкретного пользователя) - и тут возможно применение нейронных сетей и других алгоритмов распознавания изображений. |