NeuroPro

нейронные сети
и анализ данных

Главная
Новости
Услуги
Нейронные сети
Программы
Статьи
Заметки
Ссылки
Вопросы и ответы
Об авторе / контакты
Заметки

Нищета технологий обработки информации

После прочтения заметки возникнет один из двух выводов: либо существует громадный неокученный рынок программ и нерешенных задач (а, вдобавок, и рынок обучения пользователей решению задач обработки и анализа данных), либо внедрение методов анализа данных и принятия решения идёт как-то не так и не туда (что, впрочем, не отменяет первого оптимистического вывода об оценках возможностей).

Преамбула. В интернете регулярно проскакивают "крики души" вполне разумных людей об отсутствии нужных им технологий и программ для анализа данных. Например, Сергей Щеглов (писатель-фантаст и ЖЖшник-тысячник) в 2009г начал делать, как он выразился, "пульт управления государством" - для возможности анализа любых данных и выработки методологически правильных интерпретаций результатов. Потом и Илья Чибрикин (может, знакомый кому-то как активный участник интернет-форума ИГШ) на форуме "Мирового кризиса" написал следующее:
"...ПЕРЕИЗБЫТОК информации. Вот например, у меня по одной скважине собрана информация в количестве 300 мегабайт примерно. Считая 1 лист А4 в 4 килобайта текста, получаем, что это около 75000 страниц. Извернувшись через одно место и упаковав инфу 1:100 в супер-плотные картинки, получаем 750 страниц сложной и противоречивой технической документации. Кто и как её будет изучать? А никто.
Промысловый геолог, у которого таких скважин не один десяток и куча текучки, бегло проглядев это, сваяет некий мифчик, сведя 750 страниц в пару абзацев привычных терминов, а скорее, привычных эмоций. "Хорошая-плохая-легкая-трудная-клёвая-отстой". Всё. И возникнет царство мифов как для одной скважины, так и для целых нефтегазоносных провиций. И так будет, пока система не начнет давать ощутимые сбои. Но и тогда никто не полезет шерстить 750 страниц плотной технической документации, а все постараются изыскать новый, но более удобный для себя миф."

Да и вынесенные в эпиграф слова из фантастического боевика тоже говорят о том, что адекватные средства представления и анализа данных до сих пор не стали той обыденностью, про которую и писать-то не стоит.

А вот что было сказано 10 лет назад. На круглом столе-дискуссии о нейрокомпьютерах во время первой конференции "Нейроинформатика" в Москве в 1999г (материалы дискуссии доступны здесь) Сергей Терехов говорил:
"Нейронные сети сами по себе не производят новой информации, а лишь специфически перерабатывают её, повышая субъективную полезность. Например, при решении задачи классификации огромного объёма примеров на два класса, в результате работы системы для каждого примера получается один (один!) бит с номером класса. Но как велика его ценность для пользователя! ...
Это классическое понимание информации в смысле минимальной длины её описания по Колмогорову. Добавление к некоторому объёму данных новой информации приводит к неминуемому увеличению минимальной длины описания этого объёма. Получение результатов индуктивного вывода (на основе имеющейся базы данных примеров) об отнесении нового примера к классу - не есть увеличение объема информации по сравнению с ранее содержавшимся в этой базе данных.
"

Сказанное Тереховым относится не только к нейронным сетям, но и к применению методов статистики, алгоритмов data mining и др. Т.е. при "выжимке" данных никакой новой информации не появляется - новая информация возникает только в ходе анализа-интерпретации "выжатых" из данных результатов, вернее, только лишь при несовпадении полученных результатов с имеющимися у человека гипотезами, знаниями или "мифами". И опять вспомним про эпиграф - там тоже явно показана первичность именно вырабатываемой человеком гипотезы касательно взаимосвязей между показателями.

Но обычный человек часто не представляет, какая информация может являться для него новой (т.е. может вносить новые факты/знания в его картину мира). Соответственно, человек часто не может сформулировать принципы или способы проверки того, что некоторый объем данных содержит новую, для него, информацию. Знаменательно, что аппарат проверки гипотез и соответствующие ритуалы действий разработаны только в области статистики для простейших теоретических законов распределения, для более сложных объектов исследования иногда можно привлечь аппарат теории информации (но пользователь, даже профессионал в какой-то проблемной области, формальными определениями "информации" и/или "энтропии" обычно не мыслит). Поэтому изучение новых данных обычно проводится так: из-за отсутствия исходных явно поставленных критериев и гипотез, которые нужно проверить, человек следует некоторому шаблону действий (тому, который позволяет использовать некая компьютерная программа) и далее пытается обдумать и дать интерпретацию полученному сжатому представлению данных ("что вижу - о том и пою"). А вот при правильной начальной постановке вопроса пользователь мог бы получить действительно один бит - объективный ответ на вопрос "делать или не делать", "да или нет",..

Т.е. все "стандартные" программы "сжимают" массив данных в некоторый "результат" только ради этого самого результата - вернее, ради того, чтобы пользователь потом обдумал полученное (или не обдумал, если времени не будет или если некомпетентен человек в этом вопросе). Сам по себе "результат" никакой новой информации (по сравнению с использованным массивом данных) не содержит. Новая информация может возникнуть только при сопоставлении результата с фактами и знаниями, внешними по отношению к исследуемому массиву данных. Получается, что ресурс (анализируемые данные) может эксплуатироваться с нулевым КПД, когда никакой новой информации в итоге не порождается, и даже отрицательным КПД, когда время, затрачиваемое на анализ данных, не компенсирует выигрыша в быстроте принятия решения при гипотезе об отсутствии в данных новой информации (гипотеза может быть неверной, но проигрыш от быстрого неверного управленческого решения может быть меньше проигрыша от запоздавшего верного). Правильно же сформулированное понимание того, какая в некотором случае может быть получена/порождена информация, сразу поднимает КПД анализа данных с околонулевых значений ввысь, в том числе позволяя уменьшать объем "выжимки" из данных и время на анализ-интерпретацию результатов. В общем, всё зависит в первую очередь от умения аналитика явно и правильно ставить наиболее важные для него вопросы в той форме, с которой "совместим" результат того или иного метода анализа данных, а гибкость программы определяет только трудоемкость получения ответа на вопросы, и ничего более (ведь действительно: высокотехнологичный продукт обезьяна по назначению использовать обычно не может, аналогично и у людей). Поэтому либо идём по пути обучения и самообучения пользователей, либо по пути добавления "мозгов" программам, а иначе хранилища данных будут всё больше и больше превращаться в кладбища этих самых данных.