ADsP

ADsP 앙상블 기법

김파파 2021. 5. 12. 08:22

 

나무 모형의 불안정성.

- 분기변수 선택의 문제. 유사한 예측력을 보이는 분기 변수가 존재

- 분기변수 변화에 따라 모형이 크게 달라진다.

즉, 분기변수의 기준에 따라 분류되는 데이터가 전혀 달라지게 되면서 불안정성을 야기하기 때문에 안정적인 학습방법, 모형의 안정화가 필요하다.

 

앙상블 기법의 기본형태

부트스트랩 표본추출로 다수의 훈련자료를 생성한다.

각 훈련 자료에 대해 동일한 알고리즘으로 모형을 생성한다.

결과를 결합하여 최종 예측치를 산출한다.

 

배깅 bagging

주어진 자료에서 여러 개의 bootstrap 자료를 생성

각 bootstrap 자료에서 예측모형을 만든 후 결합하여 최종 예측모형을 만드는 방법

부트스트랩 bootstrap : 주어진 자료에서 동일한 크기의 표본은 무작위 복원추출로 뽑은 자료

 

부스팅 boosting

예측력이 약한 모형 weak learner 들을 결합하여 강한 예측모형을 만드는 방법

가중치를 설정한 n 개의 분류기 결합하여 최종 분류기 만드는 방법

훈련오차를 빨리 쉽게 줄일 수 있고 배깅에 비해 예측오차가 향상되어 성능이 뛰어남.

 

랜덤 포레스트 random forest

recall : 나무모형

발견된 변수의 규칙 혹은 조건문을 토대로 나무구조로 도표화 하여 분류와 예측을 수행하는 방법

나무의 분기는 불순도 감소의 방향성에 따라 이루어진다.

 

랜덤 포레스트 특성

- 임의성

- 나무모형의 집합

- 예측력 향상

 

'ADsP' 카테고리의 다른 글

ADsP 군집분석  (0) 2021.05.14
ADsP 성과분석  (0) 2021.05.13
ADsP 분류분석 성능평가  (0) 2021.05.11
ADsP 로지스틱 회귀분석  (0) 2021.05.10
ADsP 의사결정나무  (0) 2021.05.09