전체 글 438

ADsP 확률 및 확률분포

확률 특정 사건이 일어날 가능성의 척도 - 표본공간 : 나타날 수 있는 모든 결과들의 집합 - 원소 : 나타날 수 있는 개개의 결과 사건 : 표본공간의 부분집합 - 독립사건 : 한 사건의 발생여부와 관계없이 다른 사건이 발생. 교집합이 존재할 수 있음. A사건이 발생했을 때 B사건이 발생할 확률 P(B|A) = P(B) - 배반사건 : 교집합이 존재하지 않음 조건부 확률과 독립사건 확률이 0 이 아닌 사건 A가 일어났을 때 사건 B 가 일어날 확률을 사건 A가 일어났을 때의 사건 B 의 조건부 확률이라 하고 P(B|A) 와 같이 나타낸다. - 조건부 확률의 계산 P(B|A) = P(A∩B) / P(A), 단 P(A) ≠ 0. 확률변수 random variable 특정 값이 나타날 가능성이 확률적으로 주어..

ADsP 2021.05.02

책 읽는 방법

나는 나만의 책 읽는 방법이 있다. 나는 이 방법을 5권법이라고 부른다. 도서관에서 5권의 책을 빌려서 집에 있을 때는 늘 곁에 두는 방법이다. 책 읽는 게 쉽지 않았다. 책을 많이 읽는 사람이 되고 싶었다. 아이에게 모범이 되고 싶었고, 변하는 세상의 흐름을 따라가고 싶었다. 알쓸신잡이나 어쩌다 어른 같은 프로를 보고 있으면 아는 게 많은 사람이 부러웠다. 하지만 책을 펼치고 두 세장 읽으면 졸음이 찾아왔다. 큰 마음먹고 책을 구입하면 책장에 전시용이 되곤 했다. 퇴근하고 오면 늘 피곤했고 아무 생각도 하기 싫은 날이 많았다. 책을 읽는 비법은 없을까? 도서관에 가서 책 읽는 방법에 대해 나온 책들을 찾아보고 인터넷도 뒤져봤다. 하지만 나에겐 작심삼일이었다. 그래서 책 읽는 데 걸림돌이 되는 것들이 무..

생각 2021.05.02

ADsP 통계분석

통계 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약 표현 자료의 수집, 정리, 해석이 핵심 표본조사 - 모집단 : 조사하고자 하는 대상 집단 전체 - 원소 : 모집단 구성개체 - 표본 : 모집단의 일부 원소 (부분집합 subset) - 모수 : 모집단의 속성, 특징을 나타내는 통계값 (모평균, 모표준편차, 모상관계수) - 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확하게 명시 dataset : 관찰대상으로부터 속성들을 측정한 자료들의 모임 row 행 : 관찰대상(개체) col 열 : 속성, 변수, 측정 자료 질적변수 자료의 값이 아니라 각 값이 나타내는 의미를 나타내는 값으로 이뤄진 변수 - 명목형 자료 : 분류를 목적으로 사용하는 자료. 명목변수. 성별..

ADsP 2021.05.02

ADsP 통계분석 추정과 가설검정

각 확률분포는 평균, 분산 등의 모수 parameter 를 갖는다. 확률표본 random sample - 특정 확률분포로부터 독립적으로 반복해 표본을 추출하는 것 - 각 관찰 값들은 서로 독립적이며 동일한 분포를 가정함 모수 - 모집단의 특성을 나타내는 값. 일반적으로 알 수 없기에 표본을 추출함 - 표본추출에 의해 모수 추정하게 됨 - 점 추정과 구간 추정이 있음 점 추정 point estimation - 모수가 특정한 값 ex) 95% - 얼마나 정확한지 판단 불가 - ex) 표본평균, 표본분산 구간 추정 interval estimation - 미리 정해진 신뢰 수준값 99%, 95%, 90% 등 을 기준으로 모수가 참이라고 여겨질 구간을 추정하는 방법 - 점 추정의 정확성을 보존하기 위해 확률로 표..

ADsP 2021.05.01

ADsP 확률과 통계

베르누이 시행 - 결과가 오직 성공, 실패 뿐인 실험. 성공확률 = P - 동전 하나를 던지는 실험 베르누이 분포 - 베르누이 시행에서 성공이면 1, 실패면 0 인 확률변수 - 기대값 E(X) = p - Var(X) = p(1-p) 이항분포 - 성공확률이 p 인 베르누이 시행을 n 번 반복할 때 성공 횟수의 분포 - 한 번 해보면 베르누이 분포. 여러번 하면 이항분포 이항분포의 확률 - n 번 시행에서 x 회 성공할 확률 - 성공이 x 회, 실패가 (n-x) 회 - 기대값 E(X) = np - Var(X) = np(1-p) 포아송 분포 - 포아송 확률변수는 특정한 시간이나 공간에서 일어나는 사건의 횟수를 추정하는데 유용한 이산확률변수 ex) 톨게이트에 하루에 도착하는 자동차 수 - 두 구간의 길이가 같다..

ADsP 2021.05.01

ADsP 400 데이터 분석 개요

1. 데이터 추출 데이터는 아래와 같은 방법으로 가져와서 분석에 이용한다. - DW date warehouse (전사) 와 DM data mart (개별부서) 에서 데이터를 가져온다. - 기존운영시스템 legacy 에서 가져오거나 ODS operation data store 에서 전처리(정제)된 데이터를 가져와 DW 에서 가져온 내용과 결합하여 활용한다. - 스테이징 영역 staging (현장, 실무) 에서 가져온 데이터는 정제되어 있지 않기 때문에 데이터 전처리를 통해 DW 또는 DM 과 결합해 사용한다. 2. 시각화 그래프 - 가장 낮은 수준의 분석이지만 빅데이터 분석에서는 필수적이다. - 탐색적 분석을 할 때 시각화는 필수이다. 3. 공간분석 공간적 차원과 관련된 속성을 시각화 하는 분석이다. 4...

ADsP 2021.03.13

ADsP R 데이터 구조 및 외부 파일 읽기

1. R 데이터 구조 - 스칼라 scala : 구성인자가 하나인 벡터를 가리킨다. 7 : int 정수 12.3 : float 실수 'abc' : string 문자 - 벡터 vector : 하나 이상의 스칼라 원소들을 갖는 단순한 형태의 집합을 가리킨다. 동일한 유형의 1차원 데이터 구조이다. 명령어 c 를 이용해 선언할 수 있으며 c 는 연결 concentration 의 첫 글자이다. 벡터 중에 구성인자가 1개인 것을 스칼라라고 한다. { 1, 2, 3, 4 } - 요인 factor : 범주형(명목형, 순서형) 데이터 구조를 요인이라고 한다. - 행렬 matrix : m x n 형태의 행렬에 데이터를 나열한 구조이다. 동일한 유형의 2차원 데이터 구조이다. 기본적으로 열을 우선 채우는 방향으로 입력된다...

ADsP 2021.03.12

ADsP R프로그램 소개 및 설치

1. R SAS 나 SPSS 같은 통계 소프트웨어는 유지보수가 쉽지만 고가이고 최신 기술이 반영되는 속도가 다소 느리다. 다양한 모듈을 사용하려면 추가 비용을 내야 한다. 하지만 R 은 오픈소스라 비용이 들지 않고, 최신 기술 반영 속도가 매우 빠르다. 커뮤니티가 매우 잘 되어 있어 학습자료를 구하거나 궁금증에 대한 답을 구하기가 쉽다. 다만 통계 소프트웨어에 비해 유지보수가 어렵다는 단점이 있다. R 의 그래픽 성능은 상용 프로그램과 대등하거나 오히려 월등한 경우도 있다. 모든 운영체제에서 사용이 가능하다. 객체지향 언어이며 함수형 언어다. 일반 프로그래밍 언어처럼 자동화하거나 함수를 생성해서 사용할 수 있다. R 프로그램은 아래와 같이 접속하여 다운로드 및 설치가 가능하다. r-project.org ..

ADsP 2021.03.12

ADsP 322 분석 거버넌스 체계

거버넌스 governance 란 다양한 의미로 사용되고 있으나 공통적으로 포함하는 개념은 관리와 통제로 볼 수 있다. 분석 거버넌스는 데이터에 관한 규제나 관리 프로세스를 말한다. 분석 거버넌스 체계는 마스터 플랜 수립 시점부터 고려해야 하며, 다음과 같은 구성 요소로 이루어져 있다. - 프로세스 process - 시스템 system - 데이터 data - 조직 organization - 교육/육성 human resource 1. 데이터 분석 수준 진단 데이터 분석 수준을 진단함으로써 분석 기반을 마련하기 위해 무엇을 준비해야 할지 알 수 있게 된다. 분석 준비도와 분석 성숙도를 함께 평가함으로써 데이터 분석 수준을 진단할 수 있다. 1) 분석 준비도 readiness 분석 준비도는 데이터 분석 도입의 ..

ADsP 2021.03.11

ADsP 321 분석 마스터플랜 수립

1. 분석 마스터플랜 수립 프레임워크 중장기적인 마스터 플랜을 수립하기 위해서는 전략적 중요도, 비즈니스 성과 / ROI, 실행 용이성 등을 고려하여 우선순위를 정해야 한다. 그리고 분석의 적용범위 및 방법에 대해서도 종합적으로 고려하여 데이터 분석을 실행하기 위한 로드맵을 수립해야 한다. 대표적으로 중장기 마스터 플랜인 ISP information strategy planning 가 있다. ISP 는 정보화 전략과 비전을 정의하고 IT 사업과제를 도출한 후 로드맵을 수립하는 활동이다. 분석 마스터 플랜은 ISP 방법론을 활용할 수 있다. 2. 수행과제 도출 및 우선순위 평가 우선순위 평가는 정의된 데이터 과제에 대한 실행 순서를 정하는 것이다. 도출된 분석과제를 우선순위에 따라 평가하고 우선순위를 조정..

ADsP 2021.03.11