ADsP

ADsP 군집분석

김파파 2021. 5. 14. 08:27

 

군집분석

각 개체에 대해 관측된 여러 개의 변수 값들로부터 n 개의 개체를 유사한 성격으로 군집화하고 형성된 군집들 사이의 관계를 분석하는 다변량 분석기법

별도의 반응변수 필요없음

개체 간의 유사성에만 기초하여 군집 형성

이상값 탐지에 사용

심리학, 사회학, 경영학, 생물학 등 다양한 분야 이용

계층적 군집, 분리군집, 밀도-기반 군집, 모형-기반 군집, 격자-기반 군집, 커널-기반 군집, SOM

 

군집분석 예

트위터에서 여행에 대하여 이야기하는 사용자 그룹과 음식에 대하여 관심이 있는 사용자 그룹을 군집분성을 통하여 분류. 이렇게 분류된 고객 그룹에 대해서는 다른 방식의 마케팅 활동 가능

 

군집분석 특징

군집 안의 객체들은 동질적 특성을 갖도록 하고, 다른 군집은 서로 이질적이 되도록 분류하는 것이 중요

 

계층적 군집 hierarchical clustering

각 데이터가 데이터 수만큼 n 개의 독립군집에서 출발하여 점차 거리가 가까운 대상과 군집을 이루어 가는 것

- 최단 연결법 single linkage

- 최장 연결법 complete linkage

- 평균 연결법 average linkage

- Ward 연결법 Ward's method

 

1. 최단 연결법

n x n 거리 행렬에서 거리가 가장 가까운 데이터를 묶어서 군집 형성

군집과 군집 거리 계산하고 거리 행렬 수정해 나감

수정된 거리 행렬에서 거리가 가까운 데이터 또는 군집 형성

 

2. 최장 연결법

거리가 먼 데이터나 군집을 묶어서 형성

 

3. 평균 연결법

최단 연결법과 같이 거리가 가가운 데이터나 군집을 묶어서 형성

모든 항목에 대한 거리 평균을 구하면서 군집하는 연결법으로 계산량이 불필요하게 많아짐

 

4. Ward 연결법

군집 내 편차들의 제곱합을 고려한 방법

군집 간 정보 손실을 최소화하기 위한 군집화 진행

 

비계층적 군집

사전에 군집의 수를 정해주어 대상들이 군집에 할당되도록 하는 것

 

K-평균 K-means 군집분석

K개의 평균 mean 을 찾는 것

각 군집(클러스터)은 평균값으로 대표된다고 하였으므로 n 개의 접이 주어졌을 때 k개의 군집으로 분할

주어진 군집 수 k 에 대해서 군집 내 거리 제곱합의 합을 최소화하는 것을 목적으로함

즉, 군집 내 거리 제곱합의 합이 얼마나 군집화가 잘되었는지 알려주는 척도

 

장점

- 알고리즘이 단순하고 빠름

- 계층적 군집보다 많은 양의 자료를 처리

- 모든 형태의 데이터에 적용이 가능

 

단점

- 잡음이나 이상값에 영향을 받음

- 계층적 군집과는 달리 사전에 군집의 수를 지정함

- 군집 수 K가 원데이터 구조에 적합하지 않으면 좋은 결과를 얻을 수 없다.

 

 

'ADsP' 카테고리의 다른 글

ADsP 자기조직화지도  (0) 2021.05.16
ADsP 가우시안 혼합모형  (0) 2021.05.15
ADsP 성과분석  (0) 2021.05.13
ADsP 앙상블 기법  (0) 2021.05.12
ADsP 분류분석 성능평가  (0) 2021.05.11