|
Пожелания
В задачах обработки и анализа данных
обязательным требованием является
реальное наличие у заказчика всех (или большей части) требующих обработки данных,
с возможным пополнением параллельно с процессом анализа. В
задачах построения программно-аппаратных систем для сбора и обработки данных
условие наличия данных не является обязательным.
Объясняю пожелания к факту наличия данных до начала обсуждения и решения задач:
Я не являюсь специалистом в области, в которой работает заказчик,
и поэтому не могу оценить, какие данных (факты) реально могут быть нужны для
решения задачи и какой объем данных может потребоваться, чтобы покрыть
значительное число реальных ситуаций − чтобы можно было
анализировать цельную картину. Поэтому в случае отсутствия данных не могу дать
каких-либо рекомендаций об их сборе − только процесс реального анализа
покажет, достаточен ли объем данных и можно ли "выжать" с их помощью
требуемую точность решения, либо нужно будет дополнить собранные данные.
Отсутствие данных и планирование их сбора сразу ставят вопрос о
формате хранения (плоская таблица или база данных), о разработке схемы
базы данных, автоматизации процесса ввода и контроля правильности данных и т.д.
Минимальные пояснения о вариантах
представления и хранения данных я дал,
а для более сложных случаев
и поддержки автоматизации ввода данных привлекайте своих или сторонних
программистов - мне обсуждение таких вопросов неинтересно.
Пока нет данных, не стоит детально обсуждать задачи: за
время, пока будет накоплен нужный для анализа объем данных, могут поменяться
как внешняя ситуация, так и собственные цели и задачи заказчика.
Объем предлагаемых для анализа данных должен описывать достаточно
большое число реальных ситуаций. Должны быть представлены все типичные подгруппы
ситуаций, с достаточным числом представителей каждой подгруппы. В качестве примера:
если строится система медицинской диагностики, то должны быть представлены здоровые
люди и люди с интересующим заболеванием и разными вариантами его осложнения (причем не
по одному единственному случаю на заболевание и осложнение, а с разными
вариантами сочетаний по крайней мере пола и возрастной категории), люди со всех
обследуемых территорий, заболевшие, оперированные или подвергавшиеся иной форме
лечения в разные сезоны года.
В случае отсутствия данных единственная помощь, которую могу
обеспечить, − консультирование по правильной схеме представления
(кодирования) данных, особенно нечисловых, для того, чтобы максимально сохранить
их смысловую нагрузку и не исказить нежелательным образом.
|