ADsP

ADsP 시계열분석과 차원축소

Gimpapa 2021. 5. 5. 08:19

 

시계열 자료

시계열 : 시간의 흐름에 따라 관찰된 값

시계열분석은 시간의 흐름에 따라 데이터가 따르는 패턴을 찾는 방법이다.

시계열분석을 위해서는 패턴을 확인하기 위해 그래프를 그려서 패턴 존재 유무를 먼저 확인한다.

시계열은 주파수 영역 frequency domain 정보와 시간영역 time domain 정보를 가지고 있음.

주파수 영역 정보 : 주기적으로 반복되는 정보

시간영역 정보 : 시간에 따라 전개되는 정보

 

시계열의 주파수 정보

어떤 주기의 변동이 존재하는지 여부 확인

주기도 periodogram : 시계열이 어떤 주기들을 갖고 움직이고 있는지를 나타내주는 도표

주기도에서 특정 주파수에 큰 값이 나타나면 시계열에 해당 주파수(또는 주기)의 변동이 큰 것을 알 수 있음

스펙트럼 밀도함수(스펙트럼) : 주기도가 너무 변동성이 커서 평활화(평평하게 만든다)함.

 

시계열 데이터를 구성하는 성분

- 추세요인 trend factor : 장기간에 걸친 상승이나 하강의 경향

- 계절성 요인 seasonal factor : 특정 기간 동안의 주기적 변동성

- 순환 요인 cyclical factor : 계절성 이외의 요인으로 인한 추세 이탈

- 불규칙한 요인 irregular factor : 추세, 계절, 주기 외의 남은 움직임. 잡음이나 오차

 

시계열 데이터의 종류

- 정적 시계열 데이터 : 평균이나 분산이 일정한 모습을 보이는 데이터. 구간을 달리 하더라도 매 구간별로 그 특성이 동일. 시계열의 평균과 분산 등이 시간의 흐름에 따라 특정한 변화가 없는 시계열.

- 비정적 시계열 데이터 : 평균이나 분산이 일정하지 않은 모습을 보이는 데이터. 분석하기 어려운 시계열 자료. 대부분의 시계열 자료.

 

시계열 분석과 회귀분석의 차이

회귀분석은 시점을 고려하지 않는데 시계열 분석을 시간을 고려함.

 

시계열 분석의 용도

- 미래를 예측하기 위한 방법이 아님

- 현재를 기준으로 과거를 분석할 때 사용

- 과거의 데이터를 기반으로 미래의 변화에 대한 시나리오를 만들고 비교하는데 사용하면 유용

- 현재 발생한 상황에 대한 요인을 분석할 때 사용 가능

 

시계열 모형 : AR 모형, MA 모형, ARMA 모형, ARIMA 모형

 

백색잡음과정

시계열이 과거와 아무 상관이 없음

백색잡읍 white noise 은 상호 독립적이로 같은 분포를 갖는 확률변수로 구성되어 있음

자기상관함수와 편자기상관함수는 0

 

자기상관모델 AR MODEL autocorrelation model

어떤 변수에 대해서 이전 값이 이후의 값에 영향을 미치는 경우에 적용하는 모델

시계열이 과거 실제 값의 함수로 표현

검사를 위해 PACF 를 사용함

예) 용수철의 움직임 : 이전의 상태가 이후의 상태에 영향을 미침, 물건을 팔때도 똑같음. 기존 판매와 인지도 등에 영향을 받으니까.

 

이동평균모델 MA MODEL moving average model

주식에 많이 쓰임. 시간이 지나면서 어떤 변수의 평균값이 지속적으로 감소하거나 증가하는 경향이 있는 경우에 적용하는 모델.

과거의 충격으로 현재값이 표현

검사를 위해  ACF 를 사용

예) 가정의 전기 사용량

 

ARMA 모델 autoregressive moving average model

AR + MA 모델

시계열이 과거의 실제값과 과거에 발생했던 충격으로 동시에 설명되는 모형

 

ARIMA 모델 autoregressive integrated moving average model

자기 회귀 누적 이동평균 모형

ARMA 모델이 과거의 데이터를 사용하는 것에 비해서 ARIMA 모델은 과거의 데이터가 가지는 추세 momentum 도 반영

현 시점의 관측값이 과거의 관측값들 및 오차들과 선형결합된 모형

특히 데이터가 비 안정적 no stationary series 인 경우에도 안정화 과정을 거쳐서 적용이 가능

불안정시계열 : 시간에 따라 평균과 분산이 일정하지 않은 계열

시계열의 추세가 확률적이라면 차분을 하여 시계열을 안정화

1차 차분하여 ARMA(p,q) 모형이 되는 모형 : ARIMA(p,1,q) 모형

 

시계열모형 적합 3단계

1. 모형의 식별 identification

2. 추정 estimation

3. 진단 diagnostic checking

 

시계열데이터 절차 분석절차 (ARIMA 기준)

1. 데이터 준비

2. 분해 단계 : 시계열 자료를 시각화해서 특성을 파악합니다.

3. 변환 단계 ; 시계열 자료를 안정적 시계열로 변환합니다.

4. 파라미터 결정 : ACF/PACF 차트나 auro.arima 함수를 이용하여 최적화된 파라미터를 찾습니다.

5. 모형 만들기 : ARIMA 모형을 구성합니다.

6. 예측하기 : 미래 추이를 예측합니다.

 

차원축소기법

 

주성분 분석 PCA principal component analysis

많은 변수로 구성된 데이터에 대하여 주성분이라는 새로운 변수를 생성하여 기존 변수들보다 차원을 축소하여 분석을 수행하는 방법

정보를 최대한 유지하면서 변수 사이의 관련성을 분석하여 해석가능한 적은 개수의 새로운 변수들로 차원을 축소하는 것

설문지 데이터의 10개 변수를 두개로 줄이는 경우를 예로 들수 있음

주성분 분석에서 주성분 P1 은 데이터의 분산을 가장 많이 설명할 수 있는 것을 선택하고 나머지는 P1 과 수직(완전히 구분되는 독립적인)인 성분을 만드는 방법

주성분 P1, P2 가 서로 수직이므로 다중 공선성도 해결할 수 있음

제 1 주성분 분산의 크기가 가장 크다. 2, 3... 내려갈 수록 분산의 크기가 작아짐

각 주성분과의 공분산은 0

총분산 중에서 K번째 주성분까지 누적한 분산의 비율을 기준으로 주성분 수 결정

 

요인분석 factor analysis

여러 개의 서로 관련이 있는 변수들고 구성된 데이터에서, 이 변수를 설명할 수 있는 새로운 공통적으로 부여가능한 요인을 파악하는 통계적 분석방법

차후 회귀분석과 판변분석 등에 이용 가능

예) 학생 100명을 대상으로 국어, 영어, 수학, 물리, 화학 의 5개 과목에 대해 시험 실시, 성적을 구했을 때 전체 데이터를 설명할 수 있는 공통 인자(변수)를 파악하는 것.

국어, 영어 : 언어능력

수학, 물리, 화학 : 수리능력

이처럼 5개의 데이터를 2개의 공통인자(변수)로 분리해 내는 것을 말함.

즉 요인분석은 5개의 변수를 각 분야를 대표하는 2개의 변수로 축소하는 과정.

 

요인분석과 주성분분석

공통점 : 데이터를 여러 개의 변수로 부터 적은 수의 새로운 변수를 생성하는 것. 둘 다 사용한다.

차이점 : 주성분 분석은 각 변수들이 중요성이 있어 제1주성분, 제2주성분 등으로 구분되지만, 요인분석은 변수들이 기본적으로 대등한 관계를 가진다.

 

다차원척도법 multi dimensional scailing

다차원척도법은 여러 대상의 특징 사이 관계에 대한 수치적 자료를 이용해서 유사성에 대한 측정치를 상대적 거리로 구조화하는 방법

개체 간 유사성의 측도값 활용, 저차원의 가시적 공간에 표현하는 그래프적 기법

즉 2차원 혹은 3차원에서의 특정 위치에 관측치를 배치해서 보기 쉽게 척도화하는 방법

 

 

다차원척도법 분석과정

1. 자료수집 과정 : 여러개의 개체를 대상으로 복수의 특성을 측정

2. 유사성, 비유사성 측정 : 특성을 수치화하여 개체 사이의 거리를 측정

3. 공간상에 개체 표현 : 공간상에 개체간의 거리를 표현

4. 최적 표현의 결정 : 현재 개체의 상호 위치에 따른 관계가 개체들 사이의 비유사성에 어느정도 적합한지를 결정

 

'ADsP' 카테고리의 다른 글

ADsP 분류분석  (0) 2021.05.07
ADsP 데이터 마이닝 개요  (0) 2021.05.06
ADsP 회귀분석  (0) 2021.05.04
ADsP 분산분석  (0) 2021.05.03
ADsP 확률 및 확률분포  (0) 2021.05.02