분류분석
데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 데이터마이닝 기법
특정 등급으로 나눈다는 점에서 군집분석과 유사하나 각 계급이 어떻게 정의되는지 미리 알아야 함
분류 classification
객체를 정해놓은 범주로 분류하는데 목적
고객관계마케팅 CRM 에서는 고객행동예측, 속성파악에 응용
다양한 분야에서 활용가능
분류모델을 개발할 때는 train data, test data 구분하여 모델링함.
7:3, 8:2 등으로 나누어 훈련해서 최적 모델 확정지은 후 테스트 데이터로 검증
훈련용 데이터와 테스트 데이터간 편차가 없어야 하며 성능은 test 가 다소 낮게 나오는 경향
분류를 위해 사용되는 데이터 마이닝 기법
로지스틱 회귀, 최근접 이웃 nearest neighborhood, 의사결정나무 decision tree, 베이지안 정리를 이용한 분류, 인공신경망 artificial neural network, 지지도 벡터기계 support vector machine, CARET classification and regression tree 등
위 기법들은 상황판단, 속하는 분류집단 특성, 에측 등에도 사용
로지스틱 회귀분석
분석하고자 하는 대상들이 두 집단 혹은 그 이상의 집단(다변수 데이터)으로 나누어진 경우, 개별 관측지들이 어느 집단으로 분류될 수 있는가를 분석하고 이를 예측하는 모형을 개발하는데 사용되는 대표적인 통계 알고리즘.
분석 목적이나 절차에 있어서는 일반 회귀분석과 유사하나 종속변수가 명목 척도로 측정된 범주형 질적 변수인 경우에 사용한다는 점에서 일반 회귀분석과 차이가 있다.
의사결정나무
분류함수를 의사결정 규칙으로 이뤄진 나무 모양으로 그리는 방법
나무의 구조에 기반한 예측모델을 갖는 데이터를 분류하기 위한 질문. 잎은 분류 결과에 따라 분리된 데이터를 의미
연속적으로 발생하는 의사결정문제를 시각화해 의사결정이 이뤄지는 시점과 성과를 한 눈에 볼 수 있게 하며 계산결과가 의사결정나무에 직접 나타나 분석이 간편함.
의사결정나무 구성요서
- 뿌리 마디 root node : 나무구조가 시작되는 마디로써 전체 자료로 이루어져 있음
- 자식 마디 child node : 하나의 마디로부터 분리되어진 2개 이상의 마디들을 의미
- 부모 마디 parent node : 자식마디의 상위 마디
- 끝마디 terminal node 또는 잎 leaf : 각 나무줄기의 끝에 위치하고 있는 마디
- 중간마디 internal node : 나무구조의 중간에 있는 끝마디가 아닌 마디
- 가지 branch : 하나이 마디로부터 끝 마디까지 연결되는 일련의 마디들을 의미
- 깊이 depth : 가지를 이루고 있는 마디의 개수
'ADsP' 카테고리의 다른 글
ADsP 의사결정나무 (0) | 2021.05.09 |
---|---|
ADsP 기술통계 (0) | 2021.05.08 |
ADsP 데이터 마이닝 개요 (0) | 2021.05.06 |
ADsP 시계열분석과 차원축소 (0) | 2021.05.05 |
ADsP 회귀분석 (0) | 2021.05.04 |