어떤 대상의 성질에 따라 0 또는 1로 나타내는 변수를 더미변수 또는 가변수라 한다.(One-Hot encoding)
모든 카테고리에 해당하는 더미변수를 포함하여 회귀분석을 진행할 경우,
독립변수이지만 변수들이 상관성이 있어서, 한 변수가 다른 변수들의 도움으로 쉽게 예측될 수 있다.
예를 들어, 아래 이미지에서 원핫 인코딩한 세 가지 컬럼 중 두 가지 컬럼의 값을 알면 나머지 하나의 값을 예상할 수 있다.
통계학적으로 이런 경우 다중공선성(multicollinearity) 문제가 발생해 회귀분석에 어려움이 생긴다고 한다.
이를 더미변수 함정(dummy variable trap)이라 한다.
따라서, dummy variable trap에 빠지지 않기 위해
데이터 전처리를 할 때 k개의 카테고리가 있다면, k-1개의 더미변수를 만들어야 한다.
k-1개의 더미변수를 만들기 위해, 원핫 인코딩을 수행한 후에 하나의 컬럼을 삭제해도 데이터를 전부 나타낼 수 있다.
즉, d1컬럼을 삭제해도
d2 , d3
0 , 0 => Red
1 , 0 => Green
0 , 1 => Blue
이렇게 3개의 데이터를 모두 나타낼 수 있기 때문에 하나의 컬럼을 삭제해도 손실되는 정보는 없다.
그리고 컬럼이 하나 줄어들기 때문에 학습 할 때 메모리 사용량을 줄일 수 있다.
'Machine Learning > Deep Learning' 카테고리의 다른 글
Tensorflow에서 학습시 batch size, step, epoch 란? (0) | 2022.12.28 |
---|---|
Tensorflow - 이진 분류 문제의 인공신경망(ANN) (0) | 2022.12.28 |
Google Colab - 드라이브 연결하기(마운트) (0) | 2022.12.28 |
Back propagation(오차 역전파) (0) | 2022.12.27 |
Gradient Descent(경사하강법), Optimizer 종류 (0) | 2022.12.27 |