dummy variable trap

    원핫인코딩 할 시 주의할 점 - Dummy Variable Trap

    어떤 대상의 성질에 따라 0 또는 1로 나타내는 변수를 더미변수 또는 가변수라 한다.(One-Hot encoding) 모든 카테고리에 해당하는 더미변수를 포함하여 회귀분석을 진행할 경우, 독립변수이지만 변수들이 상관성이 있어서, 한 변수가 다른 변수들의 도움으로 쉽게 예측될 수 있다. 예를 들어, 아래 이미지에서 원핫 인코딩한 세 가지 컬럼 중 두 가지 컬럼의 값을 알면 나머지 하나의 값을 예상할 수 있다. 통계학적으로 이런 경우 다중공선성(multicollinearity) 문제가 발생해 회귀분석에 어려움이 생긴다고 한다. 이를 더미변수 함정(dummy variable trap)이라 한다. 따라서, dummy variable trap에 빠지지 않기 위해 데이터 전처리를 할 때 k개의 카테고리가 있다면, ..