ADsP

ADsP 데이터 마이닝 개요

Gimpapa 2021. 5. 6. 08:19

 

데이터 마이닝

대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법

정보를 찾는 방법론에 따라 인공지능, 의사결정나무, K-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접 이웃 등

분석 대상이나 활용목적, 표현방법에 따라 사용하는 분야 매우 다양 : 시각화 분석, 분류, 군집화, 예측

데이터마이닝 도구가 매우 다양하고 체계화되어 있어 도입환경에 적합한 제품 선택 및 활용이 가능

데이터 마이팅을 통한 분석 결과의 품질은 분석가의 경험과 역략에 따라 차이. 분석대상의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요

 

통계분석과 데이터 마이팅의 차이

가설이나 가정에 따른 분석이나 검정증, 통계학 전문가가 사용하는 도구가 아님

다양한 수리 알고리즘을 이용해 DB의 데이터로부터 의미있는 정보를 찾아내는 방법 통칭

 

비즈니스 관점에서 데이터마이팅이 어려운 이유

통계학전문가와 대기업 위주 시장.

쓰기 힘들고 단순 반복작업(특히 전처리)이 많아 실무에서 적극 이용하기 어려움

데이터 준비를 위한 추출, 가공 부담.

경영진과의 어려운 소통

데이터 핸들링에만 사용

신뢰 부족

 

데이터 분할

결과의 신빙성 검증을 위해 데이터를 훈련용 training, 검정용 validation, 시험용 test 으로 분리

데이터 마이팅으로 추출한 정보를 검증하는 단계

 

훈련용 : 초기의 마이닝 모델을 만드는데 사용. 추정용, 훈련용

검정용 : 구축된 모델의 과잉 또는 과소맞춤 등에 미세조정 절차를 위해 사용

시험용 : 데이터 마이닝 추진 5단계에서 검증용으로 사용

데이터 양이 충분하지 않거나 사용하는 입력 변수에 대한 설명이 부족한 경우 훈련용과 시험용으로만 분리하여 사용하기도 함.

필요에 따라 훈련용과 시험용을 번갈아 가며 사용(데이터 셋이 작을 경우)

교차확인 cross validation 을 통해 모형 평가

최근에는 훈련용과 시험용으로만 분리(7:3)해 사용하는 추세

 

데이터마이닝 모형평가

 

데이터 마이팅 프로젝트의 목적과 내용에 따라 적합 모형이 다름

몇 가지 모형 대안을 놓고 어느 것이 적합한지 판단하는 가장 보편적인 기준은 손익비교

모델링은 변경 주기가 있으며 근본적으로 정확도의 편차가 급증하는 시점에 실행

- 분류 classification : 최소 1년에 2번

- 연관성 규칙 : 비즈니스 특성에 다라 1주~1개월

- 예측 forecasting : 일, 주, 월 단위 등 모델링 기준에 따라 다름

 

성공적 데이터 마이닝 핵심

전반적인 비즈니스 프로세스에 대한 이해

 

각 프로세스에서 어떤 형태로 데이터가 발생되어 변형 및 축적되는지 이해하고 필요한 데이터를 선별하여 사용하는 것이 가능해야 함.

 

데이터에 대한 전반적인 파악, 사실 fact 과 특이사항 파악하여 브레인스토밍, 데이터마트 잘 만들기(자동화), 모델링(처음부터 전체 데이터에 접근하지 않고 샘플링을 최대한 활용, 투자하는 시간 비용 대비 최대의 효과를 끌어내야 하니까)

 

데이터 마이닝 추진단계 : 목적 설정, 데이터 준비, 데이터 가공, 데이터 마이닝 기법 적용, 검증 단계로 추진

 

1. 목적설정

목적 정의단계부터 시작. 도입 목적을 분명히 해야 함. 무엇을 왜 하는지 명확한 목적 설정

목적은 이해관계자 모두가 동의하고 이해가능해야 함

가능하면 1단계부터 전문가가 참여해 목적에 따라 사용할 데이터 마이닝 모델과 필요한 데이터를 정의하는 것이 바람직

 

2. 데이터 준비

데이터 정제를 통해 데이터의 품질을 보장하고 필요하다면 보강하여 데이터의 양을 충분히 확보해 데이터 마이닝 기법을 적용하는데 문제가 없도록 해야함

고객정보, 거래정보, 상품 마스터 정보 등 필요. 웹 로그 데이터, SNS 데이터도 활용 가능

대부분 용량이 크므로 IT 부서와 사전 협의하여 데이터 접근 부하가 심한 일을 해도 문제가 없도록 일정을 조율하고 도움을 요청함. 필요하면 데이터를 다른 서버에 저장하여 운영

 

3. 가공

모델링 목적에 따라 목적변수를 정의하고 필요한 데이터를 데이터 마이팅 소프트웨어에 적용할 수 있도록 적합한 형식으로 가공

모델 개발단계에서 데이터 읽기, 데이터 마이닝에 부하가 걸릴 수 있기 때문에 모델링 일정계획을 팀원간 잘 조정해야 함

 

4. 기법 적용

앞 단계를 거쳐 준비한 데이터와 데이터 마이닝 소프트웨어 활용

목적하는 정보 추출, 적용할 데이터 마이닝 기법은 1단계에서 미리 결정됐어야 바람직함

데이터 마이닝 모델을 목적에 맞게 선택하고 소프트웨어를 사용하는데 필요한 값을 지정.

어떤 기법을 활용하고 어떤 값을 입력하느냐 등은 데이터 분석가의 전문성에 따라 다름

데이터 마이닝 적용 목적, 보유 데이터, 산출되는 정보 등에 따라 적절한 소프트웨어와 기법 선정

 

5. 검증

데이터 마이니을로 추출한 정보를 검증하는 단계

테스트 마케팅이나 과거 데이터 활용 가능

검증이 되었으면 자동화 방안을 IT 부서와 협의해서 상시 데이터 마이닝 결과를 업무에 적용할 수 있게 해야 하며 보고서를 작성해 경영진에게 기대효과를 알릴 수 있어야 함

 

'ADsP' 카테고리의 다른 글

ADsP 기술통계  (0) 2021.05.08
ADsP 분류분석  (0) 2021.05.07
ADsP 시계열분석과 차원축소  (0) 2021.05.05
ADsP 회귀분석  (0) 2021.05.04
ADsP 분산분석  (0) 2021.05.03