K-평균 알고리즘 이해
K-평균은 군집화(Clustering)에서 가장 일반적으로 사용되는 알고리즘으로, 군집 중심점 (centroid)라는 임의의 지점을 선택해, 해당 중심에 가장 가까운 데이터들을 선택하는 군집화 기법이다.
- 군집화 후, 군집 중심점을 이동, 군집화가 동일할때까지 반복한다.
![Untitled](https://s3-us-west-2.amazonaws.com/secure.notion-static.com/f92b3f4e-7172-4226-93c4-5821e28f8370/Untitled.png)
K-평균 장점
K-평균 단점
- 거리 기반으로, 속성의 개수가 많을 경우 정확도가 떨어진다. (PCA 사용 후 적용해야 할 수도 있다.)
- 반복을 수행하는 횟수가 많을 수록 시간이 오래 걸린다
- 몇개의 군집을 선택해야 할지 정하기 어렵다.
sklearn KMeans 클래스
파라미터
- n_clusters - 군집화 할 개수, 즉 군집 중심점의 갯수
- init - 초기 군집 중심점의 좌표를 설정할 방식으로, 일반적으로 k-means++ 방식을 사용한다.
- max_iter - 최대 반복 횟수로, 이 횟수 이전에 중심점 이동이 없으면 종료한다.
속성 값
학습 이후, 볼 수 있는 주요 속성들이다.
- labels_ - 각 데이터 포인트가 속한 군집 중심점 레이블
- cluster_centers_ - 각 군집 중심점 좌표
군집 평가 (Cluster Evalution)