[ Codecademy ] Classificatio n : K - nearest neighbors

데이터를 비교할 때 아래와 같이 데이터가 지나치게 한쪽으로 치우쳤을 경우, 데이터 nomalization을 해야 한다.아래의 100 X 100 그래프로 데이터 포인트 사이의 거리를 계산할 때 y축 혹은 x축의 영향력이 지나치게 커질 수 있기 때문이다.

아래의 경우 x축은 집의 나이, y축은 방의 개수이지만 x축은 최대 0~100까지의 range를 가지는데, 방의 개수는 많아야 20개이다. 거리를 구하면 x값의 경우에는 최대 100까지 차이가 나지만, y값은 20밖에 차이가 나지 않는다.

일반적으로 Min-Max normalizati on과 Z-Score normalization을 사용하는데, 모두 장단점이 있다.

1 . Min - Max Normalization

Min-Max normalization은 minimum value를 0에, maximum value를 1에 두고 스케일을 하는 법이다.

간단한 방법이긴 하지만 out lier 때문에 제대로 데이터를 비교할 수 없는 상황이 발생하기도 한다.위의 경우, y-axis가 지배적으로 영향을 미치게 되는데, y의 max-min은 1.0이지만, x는 outlier를 제외했을 때 0.4밖에 없기 때문이다.

2 . Z - Score Normalization

Z-score normalization은 value에서 평균값을 빼고, 이를 표준편차로 나누는 방법으로 normalization을 한다.

outlier가 있어도 x값이 -1.5 ~ 1.5, y값 또한 -2 ~ 2 사이에 데이터가 형성된다.downside는 data point 간의 스케일이 일정하지 않다는 점이다.

#데이터사이언스 #다중회귀분석 #파이슨 #코드아카데미 #codecademy #datascience #MachineLearning #SupervisedLearning #Classification #KnearestNeighbors #머신러닝 #Normalization

punch