ADsP

ADsP 312 분석 방법론

Gimpapa 2021. 3. 9. 17:25

 

 

데이터 분석을 효과적으로 하기 위해서 체계적인 절차와 방법을 가진 데이터 분석 방법론이 필요하다.

 

1. KDD Knowledge Discovery in Database

 

Fayyad 가 1996 년에 정리한 데이터 마이닝 프로세스이다. 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. KDD 는 다음과 같은 분석 흐름을 제시한다.

 

데이터 셋 선택 selection : 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정한다.

데이터 전처리 pre processing : 잡음 noise, 이상값 outlier, 결측치 missing value 등을 처리한다.

→ 데이터 변환 transformation : 변수를 선택하거나 차원을 축소(과적합 overfitting 을 막기 위해)한다.

→ 데이터 마이닝 data mining : 데이터 마이닝이나 알고리즘을 통해 패턴을 찾고 데이터를 분류 또는 예측한다.

→ 결과 평가 interpretation / evaluation : 결과를 해석 및 평가하고 이를 지식화 하여 활용할 방안을 찾는다.

 

2. CRISP-DM Cross Industry Standard Process for Data Mining

 

1996년 유럽 연합의 ESPRIT 프로젝트에서 시작되었다. 계층적 프로세스 모델로 6개의 단계로 구성되어 있다.

 

업무 이해 business understading : 비즈니스 관점에서 프로젝트를 이해해고 초기 프로젝트 계획을 수립하는 단계이다.

→ 데이터 이해 data understading : 데이터 수집, 데이터 속성(타입) 이해, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 등의 작업을 한다.

→ 데이터 준비 data preparation : 분석 기법에 적합한 데이서 셋 선택, 데이터 정제(전처리), 통합 등의 과정을 거친다.

→ 모델링 modeling : 모델링 기법과 알고리즘을 선택한다. 파라미터를 최적화하고 과적합 overfitting 을 발견한다.

→ 평가 evalution : 모델 및 분석 결과를 평가한다. 모델링 과정과 모델 적용성도 함께 평가한다.

→ 전개 deployment : 완성된 모델을 실제 업무에 적용하기 위한 계획을 세운다. 유지 보수 계획을 마련하고 프로젝트 종료 보고서를 작성한다. 프로젝트 리뷰를 포함한다.

 

KDD CRISP-DM
비즈니스 도메인 이해 업무 이해
  데이터 이해
데이터 셋 선택
데이터 전처리
데이터 변환
데이터 준비
데이터 마이닝 모델링
평가 평가
활용 전개

 

3. 빅데이터 분석 방법론

 

빅데이터를 분석하기 위한 방법론은 아래와 같은 단계를 거친다.

 

분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개

Planning - Preparing - Analyzing - Developing - Deploying

 

1) 분석 기획

 

1-1) 비즈니스 이해 및 범위 설정

    - 비즈니스 이해 : 자료 조사

    - 프로젝트 범위 설정 : 구조화된 프로젝트 범위 정의서 SOW statement of work 작성

 

1-2) 프로젝트 정의 및 계획 수립

    - 데이터 분석 프로젝트 정의 : 목표 및 KPI, 목표 수준 등을 구체화, 모델 이미지 평가 기준 설정

    - 프로젝트 수행 계획 수립 : 목적, 기대효과, 수행 방법, 일정 및 조직, 관리방안 등 프로젝트 수행 계획서 작성

    - WBS work breakdown structure 작성

      참고) WBS : 전체 업무를 잘게 쪼개서 각 요소별로 계획을 짜고 담당자를 할당하는 역할을 함.

 

1-3) 프로젝트 위험 계획 수립 (개인정보 획득, 보안 등)

    - 계획 수립 단계에서 발생 가능한 모든 위험을 식별함

    - 식별된 위험의 우선순위 설정

    - 위험관리 대응계획서 수립 : 회피 avoid, 전이 transfer, 완화 mitigate, 수용 accept

 

2) 데이터 준비

 

2-1) 필요 데이터 정의

    - 데이터 정의 : 데이터 정의서, 메타데이터 정의서, 관계도 ERD entity relationship diagram 작성

    - 데이터 획득 방안 수립

 

2-2) 데이터 스토어 설계

    - 정형데이터 스토어 설계 : 관계형 데이터베이스 RDBMS, 데이터 매핑 정의서

    - 비정형데이터 스토어 설계 : 하둡, NoSQL

 

2-3) 데이터 수집 및 정합성(무결성) 점검

    - 데이터 수집 및 저장 : ETL extract transform load (크롤러로 주기적인 데이터 수집), API, 스크립트

    - 데이터 정합성(무결성) 점검

 

3) 데이터 분석

 

3-1) 분석용 데이터 준비

    - 비즈니스 룰 확인 : 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 통해 프로젝트 목표 인식

    - 분석용 데이터 셋 data-set 준비 : 데이터 스토어로부터 정형, 비정형 데이터 추출

 

3-2) 텍스트 분석

    - 어휘/구문 분석

    - 감정 분석

    - 토픽 분석

    - 오피니언 분석

    - 소셜 네트워크 분석 SNA

 

3-3) 탐색적 분석 EDA explortory date analysis (사전 맛보기 같은 거. 우선 데이터를 대충 함 보자)

    - 탐색적 데이터 분석 : 기초 통계량, 데이터 분포와 변수간의 관계 파악

    - 데이터 시각화 : 데이터의 구성, 유형, 분포를 직관적으로 볼 수 있음

 

3-4) 모델링

    - 데이터 분할 : 훈련용 데이터셋과 테스트용 데이터셋으로 분리하여 과적합 방지

    - 데이터 모델링

    - 모델 적용 및 운영 방안 : 모델에 대한 상세한 알고리즘 작성(알고리즘 설명서)

 

3-5) 모델 평가 및 검증

    - 모델 평가 : 데스트 데이터셋을 이용하여 모델 검증 작업 실시

    - 모델 검증 : 보고서 작성

 

4) 시스템 구현

 

4-1) 시스템 분석 및 설계 구현

 

4-2) 시스템 테스트 및 운영

    - 시스템 테스트 : 단위 테스트, 통합 테스트, 시스템 테스트 실시

    - 시스템 운영 계획 수립

 

5) 평가 및 전개

 

5-1) 모델 발전 계획 수립

 

5-2) 프로젝트 평가 및 보고

    - 프로젝스 성과 평가 : 프로젝트의 성과를 정량적, 정성적으로 평가

    - 프로젝트 종료 : 최종 보고서 작성