Notebook 환경
Google Colaboratory
분류(Classification)의 개요
- 정답이 있는 데이터를 학습하는 방식인 지도학습의 대표적인 유형으로 데이터의 피처와 레이블 값을 학습해서 새로운 데이터 값이 주어졌을 때 미지의 레이블 값을 예측하는 것
분류의 머신러닝 알고리즘
- 베이즈 (Bayes) 통계와 생성 모델에 기반한 Naive Bayes
- 독립 변수와 종속 변수의 선형 관계성에 기반한 Logistic Regression
- 데이터 균일도에 따른 규칙 기반의 결정 트리 (Decision Tree)
- 개별 클래스 간의 최대 분류 마진을 효과적으로 찾아주는 서포트 벡터 머신 (SVM)
- 근접 거리를 기준으로 하는 최소 근접 알고리즘 (Nearest Neighbor)
- 심층 연결 기반의 신경망 (Neural Network)
- 서로 다른/같은 머린러닝 알고리즘을 결합한 앙상블
결정 트리 (Decision Tree)
- 데이터에 있는 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만드는 방법
- 많은 규칙이 있으면 분류를 결정하는 방식이 복잡해진다는 뜻이고, 과적합으로 이어지기 쉽다.
- 트리의 깊이가 깊어질수록 예측 성능이 저하될 가능성이 높다.
- 가능한 한 적은 노드로 높은 예측 정확도를 가지려면, 데이터를 분류할 때 최대한 많은 데이터 세트가 해당 분류에 속할 수 있도록 결정 노드의 규칙이 정해져야한다.
- 트리를 사용해서 가능하면 같은 그룹에 같은 종류의 데이터가 묶이도록 해야한다.
- 한 그룹 안에서 무작위로 데이터를 선택 했을때, 예측 가능할 수록 균일도가 높다고 한다.
- 이러한 균일도를 측정하는 대표적인 방법은 엔트로피를 이용한 정보 이득 지수와 지니 계수가 있다.
균일도를 이용한 분할 기준 결정
- 정보 이득은 엔트로피라는 개념을 기반으로 한다.
- 엔트로피는 주어진 데이터의 혼잡도를 의미한다. 다른 값이 섞이면 높고, 같은 값이 섞이면 낮다.
- 정보 이득 지수는 1에서 엔트로피 지수를 뺀 값이다.
- 결정 트리는 이 지표로 분할 기준을 정한다 → 정보 이득이 높은 속성을 기준으로 분할을 한다.
- 지니 계수는 경제학에서 불평등 지수를 나타낼 때 사용 하는 계수이다.
- 0이 가장 평등하고 1로 갈수록 불평등함을 나타낸다
- 지니계수가 낮을 수록 데이터 균일도가 높은 것으로 해석하여, 이를 기준으로 분할한다.
- Sklearn 의 DecisionTreeClassifier 의 경우, 지니 계쑤를 이용해서 분할을 한다.