회귀분석 regression analysis
독립변수와 종속변수의 관계식을 추론하여 두 변수간의 인과관계를 파악하는데 주 목적이 있음. 상관분석은 변수 사이의 단순한 관계만을 보여주고 인과관계를 파악할 수 없음.
단순회귀분석 simple regression analysis
두 개의 변수 중 다른 변수에 영향을 주는 독립변수 x 가 영향을 받는 종속변수 y 에 미치는 영향력의 크기를 측정.
더우면 x 아이스크림 판매량 y 이 늘어난다.
종속변수 x 가 독립변수 y 인 단순회귀분석의 경우 선형관계를 가정할 때 다음과 같은 모형을 이룬다. 이러한 식을 모집단의 회귀모형이라고 한다.
실제 관측된 값과 추정된 값의 차이를 잔차 residual 라고 한다. 잔차의 합은 0 이다. 에러의 평균은 0 이다.
최소자승법은 잔차 제곱의 합이 최소가 되도록 하는 추세선을 계산하는 것이다. 잔차 제곱의 합을 SSE sum of squared error 라고 한다.
y 변수가 평균 대비 얼마나 변동이 있는지 나타내는 총변동을 SST sum of squared total 라 한다.
종속변수 데이터와 표본평균의 차이에 대한 제곱합을 SSR sum of squared regression 이라 한다.
총변동 SST 는 SSR 과 SSE 의 합과 같다.
y 변수와 평균의 차이가 SST 이다. SST 중에서 회귀선으로 평균과 회귀선의 y 값까지는 설명이 된다. 이렇게 설명되는 부분은 SSR 이다. 나머지 값 즉, 회귀선을 벗어난 값은 SSE 이다.
밀도가 촘촘하다 = 오차가 작다 = 회귀식의 정확도가 높다.
결정계수는 R2 (R 제곱) 이라 표기하며 SST, SSR, SSE 를 이용하여 계산한다.
R2 이 0.9라면 회귀식이 90%를 설명한다는 뜻이다.
결정계수 R2 (설명력) 은 SSR / SST 이다.
SSR 은 설명되는 부분.
총제곱합 = 회귀식으로 설명되는 제곱합 + 회귀식으로 설명되지 않는 제곱합
R2 은 0 이상, 1이하.
다중회귀분석 multiple regression analysis
종속변수에 있어서 둘 이상의 독립변수에 대한 회귀식을 추정하는 방식.
덥고 x1 습하면 x2 아이스크림 판매량 y 이 늘어난다.
'ADsP' 카테고리의 다른 글
ADsP 데이터 마이닝 개요 (0) | 2021.05.06 |
---|---|
ADsP 시계열분석과 차원축소 (0) | 2021.05.05 |
ADsP 분산분석 (0) | 2021.05.03 |
ADsP 확률 및 확률분포 (0) | 2021.05.02 |
ADsP 통계분석 (0) | 2021.05.02 |