ADsP 36

ADsP 400 데이터 분석 개요

1. 데이터 추출 데이터는 아래와 같은 방법으로 가져와서 분석에 이용한다. - DW date warehouse (전사) 와 DM data mart (개별부서) 에서 데이터를 가져온다. - 기존운영시스템 legacy 에서 가져오거나 ODS operation data store 에서 전처리(정제)된 데이터를 가져와 DW 에서 가져온 내용과 결합하여 활용한다. - 스테이징 영역 staging (현장, 실무) 에서 가져온 데이터는 정제되어 있지 않기 때문에 데이터 전처리를 통해 DW 또는 DM 과 결합해 사용한다. 2. 시각화 그래프 - 가장 낮은 수준의 분석이지만 빅데이터 분석에서는 필수적이다. - 탐색적 분석을 할 때 시각화는 필수이다. 3. 공간분석 공간적 차원과 관련된 속성을 시각화 하는 분석이다. 4...

ADsP 2021.03.13

ADsP R 데이터 구조 및 외부 파일 읽기

1. R 데이터 구조 - 스칼라 scala : 구성인자가 하나인 벡터를 가리킨다. 7 : int 정수 12.3 : float 실수 'abc' : string 문자 - 벡터 vector : 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합을 가리킨다. 동일한 유형의 1차원 데이터 구조이다. 명령어 c 를 이용해 선언할 수 있으며 c 는 연결 concentration 의 첫 글자이다. 벡터 중에 구성인자가 1개인 것을 스칼라라고 한다. { 1, 2, 3, 4 } - 요인 factor : 범주형(명목형, 순서형) 데이터 구조를 요인이라고 한다. - 행렬 matrix : m x n 형태의 행렬에 데이터를 나열한 구조이다. 동일한 유형의 2차원 데이터 구조이다. 기본적으로 열을 우선 채우는 방향으로 입력된다...

ADsP 2021.03.12

ADsP R프로그램 소개 및 설치

1. R SAS 나 SPSS 같은 통계 소프트웨어는 유지보수가 쉽지만 고가이고 최신 기술이 반영되는 속도가 다소 느리다. 다양한 모듈을 사용하려면 추가 비용을 내야 한다. 하지만 R 은 오픈소스라 비용이 들지 않고, 최신 기술 반영 속도가 매우 빠르다. 커뮤니티가 매우 잘 되어 있어 학습자료를 구하거나 궁금증에 대한 답을 구하기가 쉽다. 다만 통계 소프트웨어에 비해 유지보수가 어렵다는 단점이 있다. R 의 그래픽 성능은 상용 프로그램과 대등하거나 오히려 월등한 경우도 있다. 모든 운영체제에서 사용이 가능하다. 객체지향 언어이며 함수형 언어다. 일반 프로그래밍 언어처럼 자동화하거나 함수를 생성해서 사용할 수 있다. R 프로그램은 아래와 같이 접속하여 다운로드 및 설치가 가능하다. r-project.org ..

ADsP 2021.03.12

ADsP 322 분석 거버넌스 체계

거버넌스 governance 란 다양한 의미로 사용되고 있으나 공통적으로 포함하는 개념은 관리와 통제로 볼 수 있다. 분석 거버넌스는 데이터에 관한 규제나 관리 프로세스를 말한다. 분석 거버넌스 체계는 마스터 플랜 수립 시점부터 고려해야 하며, 다음과 같은 구성 요소로 이루어져 있다. - 프로세스 process - 시스템 system - 데이터 data - 조직 organization - 교육/육성 human resource 1. 데이터 분석 수준 진단 데이터 분석 수준을 진단함으로써 분석 기반을 마련하기 위해 무엇을 준비해야 할지 알 수 있게 된다. 분석 준비도와 분석 성숙도를 함께 평가함으로써 데이터 분석 수준을 진단할 수 있다. 1) 분석 준비도 readiness 분석 준비도는 데이터 분석 도입의 ..

ADsP 2021.03.11

ADsP 321 분석 마스터플랜 수립

1. 분석 마스터플랜 수립 프레임워크 중장기적인 마스터 플랜을 수립하기 위해서는 전략적 중요도, 비즈니스 성과 / ROI, 실행 용이성 등을 고려하여 우선순위를 정해야 한다. 그리고 분석의 적용범위 및 방법에 대해서도 종합적으로 고려하여 데이터 분석을 실행하기 위한 로드맵을 수립해야 한다. 대표적으로 중장기 마스터 플랜인 ISP information strategy planning 가 있다. ISP 는 정보화 전략과 비전을 정의하고 IT 사업과제를 도출한 후 로드맵을 수립하는 활동이다. 분석 마스터 플랜은 ISP 방법론을 활용할 수 있다. 2. 수행과제 도출 및 우선순위 평가 우선순위 평가는 정의된 데이터 과제에 대한 실행 순서를 정하는 것이다. 도출된 분석과제를 우선순위에 따라 평가하고 우선순위를 조정..

ADsP 2021.03.11

ADsP 314 분석 프로젝트 관리방안

지금까지 도출한 분석 과제는 프로젝트를 통해서 실행이 된다. 분석 프로젝트는 다음 5 가지의 특성을 고려한 관리가 필요하다. 분석 과제의 5 가지 특성 1) Data Size 데이터 크기 2) Data Complexity 데이터 복잡성 3) Speed 속도 4) Analytic Complexity 분석 복잡성 5) Accuracy & Precision 정확성과 정밀성 1. 분석 과제 관리영역 1) Data Size 데이터의 양을 고려한 관리 방안을 세워야 한다. 2) Data Complexity 데이터는 정형, 비정형 등 형태도 다양하고, 저장되어 있는 곳도 산재되어 있다. 데이터의 확보와 통합이 중요하다. 또한 해당 데이터에 잘 적용될 수 있는 분석 모델을 선정해야 한다. 데이터가 복잡한 만큼 미리 준..

ADsP 2021.03.10

ADsP 313 분석 과제 발굴

분석 과제는 해결해야 할 문제를 데이터 분석 문제로 변환한 후 관계자들이 이해하고 프로젝트로 수행할 수 있는 과제정의서 형태로 도출된다. 분석과제를 도출하기 위한 방식은 하향식 top down approach 과 상향식 bottom up approach 으로 구분할 수 있다. 하향식 problem solving 은 문제의 해법을 찾기 위해 각 과정을 단계적으로 수행하는 방식이다. 문제가 무엇인지 알고 있는 상황에서 답을 구하는 방식으로 진행된다. 분석의 대상을 알고 있기 때문에 분석 주제 유형에서 최적화 optimization 와 솔루션 solution 에 해당한다. 상향식 problem creation 은 문제의 정의 자체가 어려운 경우 이용된다. 데이터를 이용하여 생각하지 못했던 통찰을 얻고자 할 때..

ADsP 2021.03.10

ADsP 312 분석 방법론

데이터 분석을 효과적으로 하기 위해서 체계적인 절차와 방법을 가진 데이터 분석 방법론이 필요하다. 1. KDD Knowledge Discovery in Database Fayyad 가 1996 년에 정리한 데이터 마이닝 프로세스이다. 데이터 마이닝, 기계학습, 인공지능, 패턴인식, 데이터 시각화 등에서 응용될 수 있는 구조를 갖고 있다. KDD 는 다음과 같은 분석 흐름을 제시한다. 데이터 셋 선택 selection : 분석 대상의 비즈니스 도메인에 대한 이해와 프로젝트 목표를 정확하게 설정한다. → 데이터 전처리 pre processing : 잡음 noise, 이상값 outlier, 결측치 missing value 등을 처리한다. → 데이터 변환 transformation : 변수를 선택하거나 차원을 ..

ADsP 2021.03.09

ADsP 311 데이터 분석 기획의 이해

분석 기획이란 분석을 수행하기 전에 과제를 정의하고 의도했던 결과를 낼 수 있도록 관리 방안을 계획하는 작업을 말한다. 분석을 기획하기 위해서는 IT 기술, 수학 및 통계학, 비즈니스 영역에 대한 고른 역량과 균형잡힌 시각이 필요하다. 1. 분석 주제 유형 4가지 분석은 분석의 대상 what 과 방법 how 에 따라 4 가지로 나눌 수 있다. 무엇을 분석할지, 어떻게 분석할지 안다면, 개선을 통한 최적화의 형태로 분석을 수행한다.(최적화) 부엇을 분석할지는 알지만 어떻게 분석할지 모른다면, 해당 주제에 대한 솔루션을 찾아내는 방식으로 진행한다.(솔루션) 분석의 대상이 명확하지 않다면 기존의 분석 방법을 이용해서 새로운 통찰을 도출하려는 시도를 한다.(통찰) 분석의 대상이 명확하지 않은데 분석 방법도 모르..

ADsP 2021.03.09

ADsP 131 데이터 사이언스와 전략 인사이트

1. 빅데이터 분석과 전략 인사이트 빅데이터 성공사례 중에는 기존의 분석 프로젝트를 과대포장 해놓은 경우가 있다. 예전부터 사용해오던 CRM 을 이용한 분석결과를 빅데이터를 이용한 것처럼 부풀리는 것이다. 이런 경우 사실 빅데이터도 필요가 없을 수 있다. 성과에 급급해한다면 빅데이터의 본질을 이해하지 못하고 데이터에서 통찰을 끌어내지 못한다. 빅데이터의 본질은 많은 양의 데이터를 보유하는 것이 아니다. 정형, 비정형 데이터를 활용하는 분석 문화와 조직이 자리를 잡아야 한다. 비용보다는 분석적 방법에 대한 이해가 필요하고 가치를 추출해서 성과를 내는데 주목해야 한다. 때론 기업들이 분석 자체에 초점을 맞출 때도 있다. 단순히 분석을 많이 한다고 해서 경쟁우위를 갖는 것은 아니다. 복잡한 분석은 다른 회사들..

ADsP 2021.03.08