ADsP

ADsP 통계분석 추정과 가설검정

Gimpapa 2021. 5. 1. 15:00

 

각 확률분포는 평균, 분산 등의 모수 parameter 를 갖는다.

 

확률표본 random sample

- 특정 확률분포로부터 독립적으로 반복해 표본을 추출하는 것

- 각 관찰 값들은 서로 독립적이며 동일한 분포를 가정함

 

모수

- 모집단의 특성을 나타내는 값. 일반적으로 알 수 없기에 표본을 추출함

- 표본추출에 의해 모수 추정하게 됨

- 점 추정과 구간 추정이 있음

 

점 추정 point estimation

- 모수가 특정한 값 ex) 95%

- 얼마나 정확한지 판단 불가

- ex) 표본평균, 표본분산

 

구간 추정 interval estimation

- 미리 정해진 신뢰 수준값 99%, 95%, 90% 등 을 기준으로 모수가 참이라고 여겨질 구간을 추정하는 방법

- 점 추정의 정확성을 보존하기 위해 확률로 표현된 믿음의 정도 하에서 모수가 특정한 구간에 있을 것이라고 선언하는 것

 

좋은 추정량이 되기 위한 조건

- 불편성 : 모든 가능한 표본에서 얻은 추정량의 기대값이 모수의 값과 같아야 한다. 편향이 없어야 한다.

- 효율성 : 추정량의 분산이 가능한 작아야 한다.

- 일치성 : 표본의 크기가 아주 커지면, 측정값이 모수와 거의 같아진다.

- 충족성 : 추정량이 모수에 대하여 모든 정보를 제공한다.

 

가설검정

모집단에 대한 어떤 가설을 설정한 후 표본관찰을 통해 가설의 채택여부를 결정

- 검정하고자 하는 모집단의 모수에 대한 가설 설정이 가장 기본적

- 귀무가설(H0) : 모수에 대한 가설 중 간단하고 구체적인 표현

- 대립가설(H1) : 연구자가 입증하려는 주장을 담은 가설(=연구가설)

 

검정통계량 test statistics : 검정에 사용되는 통계량

- 유의수준 significance level : H0(귀무가설)이 옳은데 이를 기각하는 확률의 크기(1종 오류). 1종 오류만 통제하여 실시하는 가설검정을 유의성 검정 significance tests 이라고 함

- 기각역 critical region : H0 이 옳다는 전제에서 구한 검정통계량의 분포에서 확률이 유의 수준인 부분

 

  H0 True H0 False
H0 채택 OK 2종 오류
H0 기각 1종 오류 OK

 

 오류 error

- Type I : H0 가 맞는데 기각하는 오류. 1종 오류

- Type II : H0 가 틀린데 채택하는 오류. 2종 오류

 

상충관계

- 일반적으로 1종 오류의 크기를 고정시키고 2종 오류가 최소화되게 기각역 설정

- 1종 오류를 0.1 로 고정시키면 반대로 맞을 확률은 99% 인거임

 

p-value (p값) 를 통한 가설검정

- p값은 표본의 자료로부터 귀무가설을 기각시킬 때 범할 수 있는 1종 오류의 확률(반드시 기각역에 있을 확률)

- 검정통계량이 z=2 라면, z>2 일 때 귀무가설을 기각한다면 범할 수 있는 오류 확률은 P(z>2) = 2.28% 임. 따라서 p값은 2.28% 로 5% 보다 작으므로 기각역에 속하게 된다.

- p값<a 이면 기각하고 p값>a 이면 기각하지 못한다.

 

비모수 검정

- 모수적 검정방법 : 검정하고자 하는 모집단의 분포 고려, 검정통계량과 그 분포를 유도해 검정 실시

- 비모수적 검정 : 자료가 추출된 모집단의 분포에 아무 제약없이 검정실시. 관측자료가 적을 경우 자료간 서열관계를 나타내는 경우에 이용

- 정규분포를 하는 자료는 모수적 검정

- 정규분포를 하지 않는 자료는 비모수적 검정

'ADsP' 카테고리의 다른 글

ADsP 확률 및 확률분포  (0) 2021.05.02
ADsP 통계분석  (0) 2021.05.02
ADsP 확률과 통계  (0) 2021.05.01
ADsP 400 데이터 분석 개요  (0) 2021.03.13
ADsP R 데이터 구조 및 외부 파일 읽기  (0) 2021.03.12