NeuroPro | нейронные сети |
|
Главная Новости Услуги Нейронные сети Программы Статьи Заметки Ссылки Вопросы и ответы Об авторе / контакты |
Нищета технологий обработки информацииПосле прочтения заметки возникнет один из двух выводов: либо существует громадный неокученный рынок программ и нерешенных задач (а, вдобавок, и рынок обучения пользователей решению задач обработки и анализа данных), либо внедрение методов анализа данных и принятия решения идёт как-то не так и не туда (что, впрочем, не отменяет первого оптимистического вывода об оценках возможностей).
Преамбула. В интернете регулярно проскакивают "крики души" вполне разумных людей об
отсутствии нужных им технологий и программ для анализа данных. Например,
в 2009г начал делать, как он выразился, "пульт
управления государством" - для возможности анализа любых данных и выработки методологически
правильных интерпретаций результатов.
Потом и Илья Чибрикин (может, знакомый кому-то как активный участник интернет-форума ИГШ)
на форуме "Мирового кризиса" написал
:
А вот что было сказано 10 лет назад. На круглом столе-дискуссии о
нейрокомпьютерах во время первой конференции
"Нейроинформатика" в Москве в 1999г (материалы дискуссии доступны
)
Сергей Терехов говорил: Сказанное Тереховым относится не только к нейронным сетям, но и к применению методов статистики, алгоритмов data mining и др. Т.е. при "выжимке" данных никакой новой информации не появляется - новая информация возникает только в ходе анализа-интерпретации "выжатых" из данных результатов, вернее, только лишь при несовпадении полученных результатов с имеющимися у человека гипотезами, знаниями или "мифами". И опять вспомним про эпиграф - там тоже явно показана первичность именно вырабатываемой человеком гипотезы касательно взаимосвязей между показателями. Но обычный человек часто не представляет, какая информация может являться для него новой (т.е. может вносить новые факты/знания в его картину мира). Соответственно, человек часто не может сформулировать принципы или способы проверки того, что некоторый объем данных содержит новую, для него, информацию. Знаменательно, что аппарат проверки гипотез и соответствующие ритуалы действий разработаны только в области статистики для простейших теоретических законов распределения, для более сложных объектов исследования иногда можно привлечь аппарат теории информации (но пользователь, даже профессионал в какой-то проблемной области, формальными определениями "информации" и/или "энтропии" обычно не мыслит). Поэтому изучение новых данных обычно проводится так: из-за отсутствия исходных явно поставленных критериев и гипотез, которые нужно проверить, человек следует некоторому шаблону действий (тому, который позволяет использовать некая компьютерная программа) и далее пытается обдумать и дать интерпретацию полученному сжатому представлению данных ("что вижу - о том и пою"). А вот при правильной начальной постановке вопроса пользователь мог бы получить действительно один бит - объективный ответ на вопрос "делать или не делать", "да или нет",.. Т.е. все "стандартные" программы "сжимают" массив данных в некоторый "результат" только ради этого самого результата - вернее, ради того, чтобы пользователь потом обдумал полученное (или не обдумал, если времени не будет или если некомпетентен человек в этом вопросе). Сам по себе "результат" никакой новой информации (по сравнению с использованным массивом данных) не содержит. Новая информация может возникнуть только при сопоставлении результата с фактами и знаниями, внешними по отношению к исследуемому массиву данных. Получается, что ресурс (анализируемые данные) может эксплуатироваться с нулевым КПД, когда никакой новой информации в итоге не порождается, и даже отрицательным КПД, когда время, затрачиваемое на анализ данных, не компенсирует выигрыша в быстроте принятия решения при гипотезе об отсутствии в данных новой информации (гипотеза может быть неверной, но проигрыш от быстрого неверного управленческого решения может быть меньше проигрыша от запоздавшего верного). Правильно же сформулированное понимание того, какая в некотором случае может быть получена/порождена информация, сразу поднимает КПД анализа данных с околонулевых значений ввысь, в том числе позволяя уменьшать объем "выжимки" из данных и время на анализ-интерпретацию результатов. В общем, всё зависит в первую очередь от умения аналитика явно и правильно ставить наиболее важные для него вопросы в той форме, с которой "совместим" результат того или иного метода анализа данных, а гибкость программы определяет только трудоемкость получения ответа на вопросы, и ничего более (ведь действительно: высокотехнологичный продукт обезьяна по назначению использовать обычно не может, аналогично и у людей). Поэтому либо идём по пути обучения и самообучения пользователей, либо по пути добавления "мозгов" программам, а иначе хранилища данных будут всё больше и больше превращаться в кладбища этих самых данных. |