데이터 분석을 효과적으로 하기 위해서 체계적인 절차와 방법을 가진 데이터 분석 방법론이 필요하다.
1. KDD Knowledge Discovery in Database
Fayyad 가 1996 년에 정리한 데이터 마이닝 프로세스이다. 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. KDD 는 다음과 같은 분석 흐름을 제시한다.
데이터 셋 선택 selection : 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정한다.
→ 데이터 전처리 pre processing : 잡음 noise, 이상값 outlier, 결측치 missing value 등을 처리한다.
→ 데이터 변환 transformation : 변수를 선택하거나 차원을 축소(과적합 overfitting 을 막기 위해)한다.
→ 데이터 마이닝 data mining : 데이터 마이닝이나 알고리즘을 통해 패턴을 찾고 데이터를 분류 또는 예측한다.
→ 결과 평가 interpretation / evaluation : 결과를 해석 및 평가하고 이를 지식화 하여 활용할 방안을 찾는다.
2. CRISP-DM Cross Industry Standard Process for Data Mining
1996년 유럽 연합의 ESPRIT 프로젝트에서 시작되었다. 계층적 프로세스 모델로 6개의 단계로 구성되어 있다.
업무 이해 business understading : 비즈니스 관점에서 프로젝트를 이해해고 초기 프로젝트 계획을 수립하는 단계이다.
→ 데이터 이해 data understading : 데이터 수집, 데이터 속성(타입) 이해, 데이터 기술 분석, 데이터 탐색, 데이터 품질 확인 등의 작업을 한다.
→ 데이터 준비 data preparation : 분석 기법에 적합한 데이서 셋 선택, 데이터 정제(전처리), 통합 등의 과정을 거친다.
→ 모델링 modeling : 모델링 기법과 알고리즘을 선택한다. 파라미터를 최적화하고 과적합 overfitting 을 발견한다.
→ 평가 evalution : 모델 및 분석 결과를 평가한다. 모델링 과정과 모델 적용성도 함께 평가한다.
→ 전개 deployment : 완성된 모델을 실제 업무에 적용하기 위한 계획을 세운다. 유지 보수 계획을 마련하고 프로젝트 종료 보고서를 작성한다. 프로젝트 리뷰를 포함한다.
KDD | CRISP-DM |
비즈니스 도메인 이해 | 업무 이해 |
데이터 이해 | |
데이터 셋 선택 데이터 전처리 데이터 변환 |
데이터 준비 |
데이터 마이닝 | 모델링 |
평가 | 평가 |
활용 | 전개 |
3. 빅데이터 분석 방법론
빅데이터를 분석하기 위한 방법론은 아래와 같은 단계를 거친다.
분석 기획 - 데이터 준비 - 데이터 분석 - 시스템 구현 - 평가 및 전개
Planning - Preparing - Analyzing - Developing - Deploying
1) 분석 기획
1-1) 비즈니스 이해 및 범위 설정
- 비즈니스 이해 : 자료 조사
- 프로젝트 범위 설정 : 구조화된 프로젝트 범위 정의서 SOW statement of work 작성
1-2) 프로젝트 정의 및 계획 수립
- 데이터 분석 프로젝트 정의 : 목표 및 KPI, 목표 수준 등을 구체화, 모델 이미지 평가 기준 설정
- 프로젝트 수행 계획 수립 : 목적, 기대효과, 수행 방법, 일정 및 조직, 관리방안 등 프로젝트 수행 계획서 작성
- WBS work breakdown structure 작성
참고) WBS : 전체 업무를 잘게 쪼개서 각 요소별로 계획을 짜고 담당자를 할당하는 역할을 함.
1-3) 프로젝트 위험 계획 수립 (개인정보 획득, 보안 등)
- 계획 수립 단계에서 발생 가능한 모든 위험을 식별함
- 식별된 위험의 우선순위 설정
- 위험관리 대응계획서 수립 : 회피 avoid, 전이 transfer, 완화 mitigate, 수용 accept
2) 데이터 준비
2-1) 필요 데이터 정의
- 데이터 정의 : 데이터 정의서, 메타데이터 정의서, 관계도 ERD entity relationship diagram 작성
- 데이터 획득 방안 수립
2-2) 데이터 스토어 설계
- 정형데이터 스토어 설계 : 관계형 데이터베이스 RDBMS, 데이터 매핑 정의서
- 비정형데이터 스토어 설계 : 하둡, NoSQL
2-3) 데이터 수집 및 정합성(무결성) 점검
- 데이터 수집 및 저장 : ETL extract transform load (크롤러로 주기적인 데이터 수집), API, 스크립트
- 데이터 정합성(무결성) 점검
3) 데이터 분석
3-1) 분석용 데이터 준비
- 비즈니스 룰 확인 : 비즈니스 이해, 도메인 문제점 인식, 프로젝트 정의 등을 통해 프로젝트 목표 인식
- 분석용 데이터 셋 data-set 준비 : 데이터 스토어로부터 정형, 비정형 데이터 추출
3-2) 텍스트 분석
- 어휘/구문 분석
- 감정 분석
- 토픽 분석
- 오피니언 분석
- 소셜 네트워크 분석 SNA
3-3) 탐색적 분석 EDA explortory date analysis (사전 맛보기 같은 거. 우선 데이터를 대충 함 보자)
- 탐색적 데이터 분석 : 기초 통계량, 데이터 분포와 변수간의 관계 파악
- 데이터 시각화 : 데이터의 구성, 유형, 분포를 직관적으로 볼 수 있음
3-4) 모델링
- 데이터 분할 : 훈련용 데이터셋과 테스트용 데이터셋으로 분리하여 과적합 방지
- 데이터 모델링
- 모델 적용 및 운영 방안 : 모델에 대한 상세한 알고리즘 작성(알고리즘 설명서)
3-5) 모델 평가 및 검증
- 모델 평가 : 데스트 데이터셋을 이용하여 모델 검증 작업 실시
- 모델 검증 : 보고서 작성
4) 시스템 구현
4-1) 시스템 분석 및 설계 구현
4-2) 시스템 테스트 및 운영
- 시스템 테스트 : 단위 테스트, 통합 테스트, 시스템 테스트 실시
- 시스템 운영 계획 수립
5) 평가 및 전개
5-1) 모델 발전 계획 수립
5-2) 프로젝트 평가 및 보고
- 프로젝스 성과 평가 : 프로젝트의 성과를 정량적, 정성적으로 평가
- 프로젝트 종료 : 최종 보고서 작성
'ADsP' 카테고리의 다른 글
ADsP 314 분석 프로젝트 관리방안 (0) | 2021.03.10 |
---|---|
ADsP 313 분석 과제 발굴 (0) | 2021.03.10 |
ADsP 311 데이터 분석 기획의 이해 (0) | 2021.03.09 |
ADsP 131 데이터 사이언스와 전략 인사이트 (0) | 2021.03.08 |
ADsP 122 빅데이터의 가치와 활용 (0) | 2021.03.08 |