연관규칙 association rule
항목들간의 조건-결과 if-then 식으로 표현되는 유용한 패턴
이러한 패턴, 규칙을 발견해내는 것을 연관분석이라 함
흔히 장바구니 분석이라고 함
대용량 데이터 베이스에서 변수들 사이의 흥미로운 관계를 탐색하기 위해 고안된 방법
마케팅과 웹 마이닝 등 분야에서 사용
연관규칙 적용 예
맥주 구매는 과자 구매로 이어지는 경우가 많습니다. 남성이 금요일에 맥주를 구매할 때 소주를 같이 사는 경우가 많습니다. 맥주는 과자코너 다음에 배치하고 맥주와 소주는 동일한 위치에 배치합시다.
연관규칙 측정지표(반드시 출제)
- 지지도 support : 상품 A 와 상품 B 를 동시에 구매할 확률 P(A∩B) 를 나타냄.
상품 A 와 B 가 동시에 포함된 거래수 / 전체 거래수
- 신뢰도 confidence : 상품 A 가 구매되었을 때, 상품 B 가 구매될 확률 P(B|A) 를 나타냄
P(B|A) = P(A∩B) / P(A)
상품 A 와 B 가 동시에 포함된 거래수 / A를 포함하는 거래수
- 향상도 lift : 상품 A 를 구매한 사람이 B 를 구매할 확률과 A 의 구매와 상관없이 B 를 구매할 확률의 비율
P(B|A) / P(B) = P(A∩B) / P(A)P(B)
상품 A 와 B 가 동시에 포함된 거래수 / A 를 포함하는 거래수 x B 를 포함하는 거래수
- 향상도에서 만약 A 와 B 가 독립이라면
P(A∩B) 가 P(A)xP(B)
lift = P(A)xP(B) / P(A)xP(B) = 1 즉 향상도는 1이 된다.
A 와 B 가 관련성이 없다면 lift = 1 이 되고
lift > 1 이면 lift 값이 클수록 관련도가 높다.
lift <1 이면 오히려 A 를 구매한 사람은 B 를 구매하지 않는다는 결론이 나온다.
Apriori 알고리즘 분석절차
- 최소지지도를 설정
- 개별품목 중에서 최소지지도를 넘는 모든 품목을 찾음
- 찾은 개별 품목만을 이용하여 최소지지도를 넘는 두 가지 품목 집합을 찾음
- 찾은 품목 집합을 결합하여 최소지지도를 넘는 세 가지 품목 집합을 찾음
- 반복적으로 수행하여 최소지지도가 넘는 빈발품목을 찾음
연관규칙 장단점
장점
- 결과가 분명하다 if-then 규칙
- 거대 자료의 분석의 시작으로 적합함
- 변수의 개수가 많은 경우세 쉽게 사용될 수 있다.
- 계산이 용이하다
단점
- 품목 수의 증가에 따라 계사량이 폭증함
- 자료의 속성에 제한이 있다. 예를 들어 구매자의 개인정보 중 나이 등의 연속형 변수를 사용할 수 없다.
- 적절한 품목을 결정하기가 어렵다
- 거래가 드문 품목에 대한 정보를 찾기가 어렵다.
'ADsP' 카테고리의 다른 글
ADsP 인공신경망 (0) | 2021.05.18 |
---|---|
ADsP 자기조직화지도 (0) | 2021.05.16 |
ADsP 가우시안 혼합모형 (0) | 2021.05.15 |
ADsP 군집분석 (0) | 2021.05.14 |
ADsP 성과분석 (0) | 2021.05.13 |