Содержание материала
Концентрация на самом важном
Данные часто противоречат предположениям. Например, при создании многих моделей требуется сделать предположение относительно нормального распределения. Теоретически, когда такие предположения не оправдываются, возникают большие проблемы. Однако на практике при наличии тесной взаимосвязи между двумя факторами она проявится вне зависимости от используемого метода. Означает ли это, что оценки параметров и прогнозируемый эффект будут идентичными при различных вариантах моделирования, если предположения окажутся неверными? Нет, но это значит, что важные факторы, как правило, будут считаться важными при использовании любых методов, даже если предположения не оправдаются. Если в высоком уровне детализации нет необходимости, то можно ограничиться приблизительными значениями.
Бывает ли так, что совершенная U-образная кривая настолько противоречит предположению о наличии линейной зависимости, что линейная регрессия показывает полное отсутствие какой-либо связи между двумя переменными? Да, бывает. Однако вероятность этого невелика и в большинстве случаев наличие взаимосвязи будет обнаружено. Если тому, для кого делается анализ, нужны приблизительные данные для принятия решения типа да/нет, то данные и модели должны быть достаточно точными, чтобы однозначно ответить на поставленный вопрос. Хороший аналитик знает, когда следует повысить или понизить уровень точности, исходя из существующих требований. Данные, которые полностью противоречат предположению о наличии линейной зависимости, представлены на рис. 8.1. Тем не менее линия регрессии эффективно отражает суть существующей взаимосвязи, если все, что требуется, — это установить факт наличия зависимости двух факторов друг от друга.
Рис. 8.1. Линейное представление нелинейной зависимости