NeuroPro

нейронные сети
и анализ данных

Главная
Новости
Услуги
Нейронные сети
Программы
Статьи
Заметки
Ссылки
Вопросы и ответы
Об авторе / контакты
Заметки

Миллион $$$ от Netflix

Начнем издалека. За последние полтора десятка лет у связанного с computer science научного сообщества сформировался и получил широкое распространение соревновательный способ участия исследователей в решении новых и сложных задач. Причем с развитием интернета способ участия окончательно стал заочным и доступным человеку из любой точки мира.

В качестве примеров можно перечислить следующие. Cоревнование Santa Fe Time Series Prediction в 1992г, по итогам которого участники написали книгу [1]. NIPS Feature Selection Challenge 2003г с итоговой книгой [2] (см. её содержание; правда, в книге был сделан меньший упор на описание результатов самими участниками, а больший - на собственные статьи организаторов и заинтересовавшихся проблематикой иных ученых, выступивших с инициативными статьями). Раз в два года проходит Fingerprint Verification Competition (см. здесь ссылки на странички этих соревнований) - результаты участников докладываются на международных научных конференциях, организаторы соревнований 2000 и 2002гг написали книгу [3]. По итогам ежегодных соревнований RoboCup тоже издаются книги (имеющие доступ к изданиям издательства Springer могут скачать электронные тексты этих книг). Два свежих события: KDD 2007 Competition on Prior vs Agnostic Learning и 2006-07 Forecasting Competition for Neural Networks & Computational Intelligence, доклады по результатам участия в которых по крайней мере будут включены в материалы международных конференций.

Статистика говорит, что разнообразные cups/competitions уже исчисляются общим числом во многие десятки - см. список соревнований на сайте PASCAL и список ссылок на ежегодные KDD Cups на сайте KDnuggets.

Мы видим, что в нескольких мощных и смежных областях computer science, таких, как нейронные сети, статистика, распознавание изображений, искусственный интеллект, data mining и т.д., наблюдается массовость попыток привлечь на инициативной основе к "раскалыванию" сложных проблем потенциально всех мировых исследователей в данных областях (во всяком случае, читающих по-английски) и широкий встречный поток интереса от участников.

А теперь внимание! Данная схема научно-практической работы апробируется и бизнесом, причем с великолепными призами для победителей! Объявленный осенью 2006г миллионнобаксовый приз от видеопрокатчика Netflix за повышение точности прогнозов-рекомендаций на 10% по сравнению с точностью их текущей внутрикорпоративной системы говорит, что и коммерческие фирмы стали принимать эти правила игры и, скорее всего, понимать более высокий потенциал инициативно-соревновательной деятельности по сравнению с тем, как если бы объявленный призовой бюджет был освоен внутри организации через традиционные схемы НИОКР.

Теперь об особенностях решения бизнес-задач таким способом.

Из-за относительно невысокого числа подобных прикладных задач data mining вряд ли стоит ожидать появления некоторого специализированного клона оффшорно-фрилансерской биржи программистских проектов RentACoder. Поэтому новости о некоммерческих и коммерческих соревнованиях и проектах надо будет по прежнему выдергивать из различных мест в интернете (сайта с общим и практически полным списком пока не существует), а большинству инициаторов проектов придется делать собственные интернет-сайты (т.к. уже готовой обслуживающей инфраструктуры нет) и самостоятельно заниматься рекламой.

Заказчик будет обращать внимание скорее не на заработанную стабильным и качественным выполнением многих проектов репутацию (поскольку большого потока проектов пока нет и портфолио наработать сложно), а на реальное достижение нужной ему точности решения задачи (т.е. влияние любых форм пиара со стороны исполнителей должно здесь стать минимальным, ликвидируется конкуренция исполнителей по цене и "прогибу" под заказчика - остается только возможность первым добиться того уровня решения задачи, который востребован клиентом). А потенциальный исполнитель может находить проекты, подходящие под его специализацию и уже реализованные алгоритмы, пока еще только считанные разы в год, причем в каждом таком проекте ему придется соревноваться с конкурентами со всего мира.

Делающим же упор на научную сторону представляется возможность как великолепного пиара в научно-практическом мире (при попадании в группу лидеров по результатам некоторого соревнования), так и возможность более просто опубликовать статью с описанием идей, алгоритмов, результатов (т.к. скорее всего будет убран оргвзнос за публикацию/участие для приглашенных доложить свои технологии лидеров-победителей - останутся только расходы на транспорт и проживание, а ехать и докладывать тоже скорее всего будет не слишком обязательно, можно будет ограничиться отсылкой статьи).

В общем, образовался перспективный и широкий поток событий - не проходите мимо открывающихся возможностей.

Литература
1. Time Series Prediction: Forecasting the Future and Understanding the Past. (A.S.Weigend and N.A.Gershenfeld eds). Addison-Wesley, 1994.
2. Feature Extraction, Foundations and Applications (I.Guyon, S.Gunn, M.Nikravesh, L.Zadeh eds). Springer, 2006
3. Maltoni D., Maio D., Jain A.K., Prabhakar S. Handbook of Fingerprint Recognition. Springer, 2003.

Продолжение с описанием ситуации на 2010г - в заметке Что же выросло из нетфликсовского конкурса.