ADsP

ADsP 가우시안 혼합모형

김파파 2021. 5. 15. 08:27

 

혼합군집 분석 (가우시안 혼합모형)

모형기반의 군집방법

데이터가 k개의 모수적 모형(정규분포 또는 다변량 정규분포 가정)의 가중합으로 표현되는 모집단 모형으로 나왔다고 가정

모수와 함께 가중치를 자료로부터 추정하는 방법 사용

k개의 모형은 군집을 의미하고 추정된 k개의 모형 중 어느 모형으로부터 나왔을 확률이 높은지에 따라 군집을 분류

혼합모형에서의 모수와 가중치의 추정(최대 가능도 추정)에는 EM 알고리즘 사용

 

혼합군집 모형의 장단점

 

장점

- 확률분포를 도입하여 군집을 수행하는 모형기반 군집방법

- 군집을 몇 개의 모수로 표현할 수 있고, 서로 다른 크기나 모양의 군집을 찾을 수 있다.

단점

- EM 알고리즘(복잡하다)을 통한 모수 추정에서 시간이 소요

- 군집 크기가 작으면 추정도가 저하

- 이상값에 민감하여 사전에 제거해줘야 함

 

EM 알고리즘

 

E 단계(잠재변수 Z의 기대치 계산)

- 각 집단의 분포는 정규분포를 따른다고 가정

- 각 자료가 어느 집단에서 나온지 안다면 해당 모수의 추정은 어렵지 않음

- 그러나 각 자료가 어느 집단에서 나온지 모르기 때문에 잠재변수의 개념을 도입하게 됨

- 잠재변수가 z 일 때 모수의 초기값이 주어져 있다면(초기분포 값을 안다면) 각 자료가 어느 집단으로 부터 나올 확률이 높은지에 대해 추정할 수 있다.

 

M 단계(잠재변수 Z의 기대치 이용, 파라미터 추정)

- 그 다음 각 자료의 x 조건부 분포로부터 조건부 기대값을 구함

- 관측변수 x 와 잠재변수 z를 포함하는 로그 가능도함수에 상수 값인 z 의 조건부 기대값을 대입하여 로그가능도 함수를 최대로 하는 모수를 찾는다.

'ADsP' 카테고리의 다른 글

ADsP 연관규칙  (0) 2021.05.17
ADsP 자기조직화지도  (0) 2021.05.16
ADsP 군집분석  (0) 2021.05.14
ADsP 성과분석  (0) 2021.05.13
ADsP 앙상블 기법  (0) 2021.05.12