ADsP 36

ADsP 기술통계

기술통계 자료를 요약하는 기초적 통계 데이터 분석에 앞어 데이터의 대략적인 통계적 수치를 계산해 봄으로써 데이터에 대한 대략적 이해와 분석에 대한 통찰력을 얻기에 유리 데이터 마이닝에 앞서 데이터의 기술통계를 확인해보는 것이 좋음 범주형 자료 도수분포표 : 명목척도, 순서척도. 조사된 데이터를 도수(빈도)로 나타낸 표 바 차트 : 도수분포를 그래프로 표현 상대도수 분포표 : 도수를 총 도수로 나눈 비율의 분포표 파이차트 : 데이터 비율을 원의 각도로 변환, 원으로 표현한 방법 정량적 자료 히스토그램 : 연속된 데이터를 구간으로 나누어 도수를 계산하여 막대그림으로 그림 줄기-잎 그림 : 연속된 자료를 왼쪽을 줄기, 오른쪽을 잎으로 나타내며 데이터를 표현 상자그림 box plot : 5개 숫자요약에 기초한 ..

ADsP 2021.05.08

ADsP 분류분석

분류분석 데이터의 실체가 어떤 그룹에 속하는지 예측하는데 사용하는 데이터마이닝 기법 특정 등급으로 나눈다는 점에서 군집분석과 유사하나 각 계급이 어떻게 정의되는지 미리 알아야 함 분류 classification 객체를 정해놓은 범주로 분류하는데 목적 고객관계마케팅 CRM 에서는 고객행동예측, 속성파악에 응용 다양한 분야에서 활용가능 분류모델을 개발할 때는 train data, test data 구분하여 모델링함. 7:3, 8:2 등으로 나누어 훈련해서 최적 모델 확정지은 후 테스트 데이터로 검증 훈련용 데이터와 테스트 데이터간 편차가 없어야 하며 성능은 test 가 다소 낮게 나오는 경향 분류를 위해 사용되는 데이터 마이닝 기법 로지스틱 회귀, 최근접 이웃 nearest neighborhood, 의사결정..

ADsP 2021.05.07

ADsP 데이터 마이닝 개요

데이터 마이닝 대용량 데이터에서 의미있는 데이터 패턴을 파악하거나 예측을 위해 데이터를 자동으로 분석해 의사결정에 활용하는 방법 정보를 찾는 방법론에 따라 인공지능, 의사결정나무, K-평균군집화, 연관분석, 회귀분석, 로짓분석, 최근접 이웃 등 분석 대상이나 활용목적, 표현방법에 따라 사용하는 분야 매우 다양 : 시각화 분석, 분류, 군집화, 예측 데이터마이닝 도구가 매우 다양하고 체계화되어 있어 도입환경에 적합한 제품 선택 및 활용이 가능 데이터 마이팅을 통한 분석 결과의 품질은 분석가의 경험과 역략에 따라 차이. 분석대상의 복잡성이나 중요도가 높으면 풍부한 경험을 가진 전문가에게 의뢰할 필요 통계분석과 데이터 마이팅의 차이 가설이나 가정에 따른 분석이나 검정증, 통계학 전문가가 사용하는 도구가 아님 ..

ADsP 2021.05.06

ADsP 시계열분석과 차원축소

시계열 자료 시계열 : 시간의 흐름에 따라 관찰된 값 시계열분석은 시간의 흐름에 따라 데이터가 따르는 패턴을 찾는 방법이다. 시계열분석을 위해서는 패턴을 확인하기 위해 그래프를 그려서 패턴 존재 유무를 먼저 확인한다. 시계열은 주파수 영역 frequency domain 정보와 시간영역 time domain 정보를 가지고 있음. 주파수 영역 정보 : 주기적으로 반복되는 정보 시간영역 정보 : 시간에 따라 전개되는 정보 시계열의 주파수 정보 어떤 주기의 변동이 존재하는지 여부 확인 주기도 periodogram : 시계열이 어떤 주기들을 갖고 움직이고 있는지를 나타내주는 도표 주기도에서 특정 주파수에 큰 값이 나타나면 시계열에 해당 주파수(또는 주기)의 변동이 큰 것을 알 수 있음 스펙트럼 밀도함수(스펙트럼)..

ADsP 2021.05.05

ADsP 회귀분석

회귀분석 regression analysis 독립변수와 종속변수의 관계식을 추론하여 두 변수간의 인과관계를 파악하는데 주 목적이 있음. 상관분석은 변수 사이의 단순한 관계만을 보여주고 인과관계를 파악할 수 없음. 단순회귀분석 simple regression analysis 두 개의 변수 중 다른 변수에 영향을 주는 독립변수 x 가 영향을 받는 종속변수 y 에 미치는 영향력의 크기를 측정. 더우면 x 아이스크림 판매량 y 이 늘어난다. 종속변수 x 가 독립변수 y 인 단순회귀분석의 경우 선형관계를 가정할 때 다음과 같은 모형을 이룬다. 이러한 식을 모집단의 회귀모형이라고 한다. 실제 관측된 값과 추정된 값의 차이를 잔차 residual 라고 한다. 잔차의 합은 0 이다. 에러의 평균은 0 이다. 최소자승법..

ADsP 2021.05.04

ADsP 분산분석

분산분석의 개념 두 개 이상의 평균(보통 3개 이상)을 동시에 비교하고자 할 때 분산분석 analysis of variance, ANOVA 을 이용한다. 분산분석을 위한 세가지 가정 1. 독립성 : 종속변수에 대한 각 표본의 관측치는 독립적이다. 2. 정규성 : 모집단들은 모두 정규분포를 따른다. 3. 등분산성 : 모집단들은 모두 동일한 분산을 가지고 있다. 일원분산분석 one way ANOVA 종속변수 평균 차이에 대한 단일요인 독립변수에 의한 분산분석 검정 방식 총편차 = 집단간 편차 + 집단내 편차 편차 : 평균과 관측치의 차이 0 가설 H0 : 기각시키고 싶은 가설 1 가설 H1 : 내가 주장하고 싶은 가설. 대립가설 총변동 SST = 집단간 변동 SSB + 집단내 변동 SSW (between, ..

ADsP 2021.05.03

ADsP 확률 및 확률분포

확률 특정 사건이 일어날 가능성의 척도 - 표본공간 : 나타날 수 있는 모든 결과들의 집합 - 원소 : 나타날 수 있는 개개의 결과 사건 : 표본공간의 부분집합 - 독립사건 : 한 사건의 발생여부와 관계없이 다른 사건이 발생. 교집합이 존재할 수 있음. A사건이 발생했을 때 B사건이 발생할 확률 P(B|A) = P(B) - 배반사건 : 교집합이 존재하지 않음 조건부 확률과 독립사건 확률이 0 이 아닌 사건 A가 일어났을 때 사건 B 가 일어날 확률을 사건 A가 일어났을 때의 사건 B 의 조건부 확률이라 하고 P(B|A) 와 같이 나타낸다. - 조건부 확률의 계산 P(B|A) = P(A∩B) / P(A), 단 P(A) ≠ 0. 확률변수 random variable 특정 값이 나타날 가능성이 확률적으로 주어..

ADsP 2021.05.02

ADsP 통계분석

통계 특정 집단을 대상으로 수행한 조사나 실험을 통해 나온 결과에 대한 요약 표현 자료의 수집, 정리, 해석이 핵심 표본조사 - 모집단 : 조사하고자 하는 대상 집단 전체 - 원소 : 모집단 구성개체 - 표본 : 모집단의 일부 원소 (부분집합 subset) - 모수 : 모집단의 속성, 특징을 나타내는 통계값 (모평균, 모표준편차, 모상관계수) - 모집단의 정의, 표본의 크기, 조사방법, 조사기간, 표본추출방법을 정확하게 명시 dataset : 관찰대상으로부터 속성들을 측정한 자료들의 모임 row 행 : 관찰대상(개체) col 열 : 속성, 변수, 측정 자료 질적변수 자료의 값이 아니라 각 값이 나타내는 의미를 나타내는 값으로 이뤄진 변수 - 명목형 자료 : 분류를 목적으로 사용하는 자료. 명목변수. 성별..

ADsP 2021.05.02

ADsP 통계분석 추정과 가설검정

각 확률분포는 평균, 분산 등의 모수 parameter 를 갖는다. 확률표본 random sample - 특정 확률분포로부터 독립적으로 반복해 표본을 추출하는 것 - 각 관찰 값들은 서로 독립적이며 동일한 분포를 가정함 모수 - 모집단의 특성을 나타내는 값. 일반적으로 알 수 없기에 표본을 추출함 - 표본추출에 의해 모수 추정하게 됨 - 점 추정과 구간 추정이 있음 점 추정 point estimation - 모수가 특정한 값 ex) 95% - 얼마나 정확한지 판단 불가 - ex) 표본평균, 표본분산 구간 추정 interval estimation - 미리 정해진 신뢰 수준값 99%, 95%, 90% 등 을 기준으로 모수가 참이라고 여겨질 구간을 추정하는 방법 - 점 추정의 정확성을 보존하기 위해 확률로 표..

ADsP 2021.05.01

ADsP 확률과 통계

베르누이 시행 - 결과가 오직 성공, 실패 뿐인 실험. 성공확률 = P - 동전 하나를 던지는 실험 베르누이 분포 - 베르누이 시행에서 성공이면 1, 실패면 0 인 확률변수 - 기대값 E(X) = p - Var(X) = p(1-p) 이항분포 - 성공확률이 p 인 베르누이 시행을 n 번 반복할 때 성공 횟수의 분포 - 한 번 해보면 베르누이 분포. 여러번 하면 이항분포 이항분포의 확률 - n 번 시행에서 x 회 성공할 확률 - 성공이 x 회, 실패가 (n-x) 회 - 기대값 E(X) = np - Var(X) = np(1-p) 포아송 분포 - 포아송 확률변수는 특정한 시간이나 공간에서 일어나는 사건의 횟수를 추정하는데 유용한 이산확률변수 ex) 톨게이트에 하루에 도착하는 자동차 수 - 두 구간의 길이가 같다..

ADsP 2021.05.01