본문 바로가기

정리/데이터 분석

[R] prediction from a rank-deficient fit may be misleading , 다중 공선성 (Multicollinearity) 선형분석

728x90

1. prediction from a rank-deficient fit may be misleading 오류

Model 을 만들고 그 모델로 prediction 을 수행할 때

"prediction from a rank-deficient fit may be misleading"

와 같은 warning 메시지가 나올 때가 있다.

이 이유는 바로 다중공선성과 관련이 있습니다.

x3, x4 의 배수관계

2. 선형 회귀 모델에서 발생하는 다중공선성

다중 공선성은 회귀 모델에서 독립 변수들 간에 강한 선형 관계가 있는 경우 발생합니다.

Multicollinearity = multi + col + linearity : 선형성이 서로 발생하는데 여러개의 변수에서 발생한다라고 보면 되겠습니다.
즉, 하나의 독립 변수가 다른 독립 변수들과 상관성이 높은 경우에 우리는 다중 공선성이 발생했다고 합니다.

 

3. 비선형 예측 모델의 다중공선성

이는 주로 선형 회귀 모델에서 발생하는 문제이며, 비선형 예측 모델의 경우에는 그 정도가 다를 수 있습니다. 여러 가지 요인에 따라 다중 공선성이 문제가 되지 않을 수도 있습니다. 여기에 주의해야 할 몇 가지 상황이 있습니다.

1) 모델의 목적 및 해석



다중 공선성이 주로 회귀 계수의 정확한 추정에 영향을 미치는데, 모델의 목적이 계수의 정확한 추정이 아니라 예측 또는 변수의 중요도 평가라면, 다중 공선성이 큰 문제가 되지 않을 수 있습니다.

2) 고차항과 상호작용



비선형 모델에서는 다중 공선성이 선형 모델보다 적은 문제가 될 수 있습니다. 특히 고차항이나 상호작용 항이 있는 경우, 선형성이 깨지는 경향이 있어 다중 공선성이 큰 영향을 미치지 않을 수 있습니다.

3) 고정된 설계 행렬



고정된 설계 행렬(fixed design matrix)을 가진 경우 다중 공선성이 덜 문제가 될 수 있습니다. 설계 행렬이 고정되어 있다면, 데이터가 추가되더라도 설계 행렬이 변하지 않아 다중 공선성이 큰 문제가 되지 않을 수 있습니다.

4)규제(Regularization)



비선형 모델에서도 규제(예: Ridge, LASSO)를 사용하여 다중 공선성을 완화할 수 있습니다.

 

4. 결론

다중 공선성을 무시하는 것은 일반적으로 권장되지 않습니다. 이는 모델의 불안정성과 예측의 부정확성을 초래할 수 있습니다. 따라서 다중 공선성을 고려하고, 필요한 경우에는 적절한 조치를 취하는 것이 좋습니다. 특히 변수 선택, 변수 변환, 규제 등을 통해 다중 공선성을 다룰 수 있습니다.