[Statistics] 통계검정방법

티스토리 뷰

🚀 What I Studied/Statistics

[Statistics] 통계검정방법

박낑깡이 2022. 9. 26. 12:30

데이터사이언스를 위한 통계학입문ⅠI

https://pabi.smartlearn.io/courses/course-v1:POSTECH+DSB112+P2203/about

데이터사이언스를 위한 통계학입문Ⅱ

pabi.smartlearn.io

V. 통계검정방법

5.1 신뢰구간의 의미

신뢰구간 : 구간추정

- 실제 모수가 존재할 가능성이 높은 구간으로 추정

- 모평균, 모비율 등 모수를 포함할 확률

- 신뢰수준(Confidence level) : 구간에 모수u가 포함될 확률

- 일반적으로 100(1-a)%로 나타냄

95% 신뢰구간의 의미

1) 100번의 반복샘플링을 통해 얻은 평균과 편차로 계산한 100개의 신뢰구간 중 5개는 실제모평균(u)을 포함하고 있지 않는다.

2) 표본을 통해 얻은 95% 신뢰구간에 실제 모평균이 포함되지 않을 확률은 5%이다

몇 퍼센트의 신뢰구간이 적당한가?

여론조사에서 95% 신뢰구간을 사용하는 이유는 무엇일까

-> 오차범위를 3% 내외로 사용하기 위해

표본사이즈와 허용오차

: 허용오차를 일정수준으로 정하면 그에 따른 표본크기가 정해진다.

-> 실험 및 조사설계를 할 때 허용오차 및 신뢰수준을 고려해야 정확한 분석이 가능하다.

5.2 통계적 검정은 왜 필요한가

통계적 검정이란?

가설의 진위 여부를 판단, 증명, 검정하는 통계적 추론 방식

1. 귀무가설(H0)

검정 대상이 되는 가설
기각을 목표로 함

2. 대립가설(H1)

귀무가설이 기각될 때 받아들여지는 가설
채택을 목표로 함

가설 검정의 절차

: 가설 설정 -> 유의수준 설정 -> 검정통계량 산출 -> 가설 기각/채택

검정 예시 : T-test

단측검정 예시

-> (소비자 주장) 카페에서 파는 커피용량이 200ml보다 적다

귀무가설(H0) : 커피의 용량은 200ml다

대립가설(H1) : 커피의 용량은 200ml보다 적다

T-분포를 이용한 검정

: 한집단 혹은 두 집단 간 평균 차이에 대한 통계적 검정 방법

T-distribution

많은 사회 현상은 평균 데이터가 많기 때문에 정규 분포의 형태
정규 분포는 표본의 데이터 수가 많아야 신뢰도 향상(일반적으로 30개 이상)
데이터가 적은 경우 예측 범위가 더 넓은 T-distribution 사용

T-test의 가정

독립성 : 두 집단의 변수는 서로 독립
정규성 : 두 집단의 데이터는 정규분포를 만족
등분산성 : 두 집단의 분산은 동일

5.3 두집단 t-검정

두 모집단의 평균을 비교하기 위한 t-검정의 계산 과정을 익힌다.

두 집단간 평균비교

목적 : 수면 장애가 있는 환자들에게 a,b 약제를 투여하여 그 효과를 비교하고자 한다. 투약했을 때 수면시간 증가에 유의한 차이가 있는지 조사

데이터로 부터 얻은 기술통계치

A에 대한 평균 : 0.75, 분산 : 3.6

B에 대한 평균 : 2.33, 분산 : 4.0

가설 : 약물종류(A,B)따라 환자의 평균 수면시간 증가에 차이가 있는지 유의수준 5%에서 검정

T-검정의 검정통계량과 기각역

두 모집단의 분산이 동일하다고 할 때 평균 수면시간 증가량에 차이가 있는지 유의수준을 5%에서 검정

약물a에 대한 데이터 수 : 10, 평균 : 0.75, 분산 : 3.6

약물b에 대한 데이터 수 : 10, 평균 : 2.33, 분산: 4.0

검정통계량

검정통계량이 기각역 안에 있으면 귀무가설을 기각 -> 대립가설을 인정

통계검정결과에 대한 결론

A,B 투약 후 수면시간 증가에 유의한 차이가 있는지 조사

유의수준 0.05에서는 귀무가설을 기각할 수 없음

-> 유의수준 0.05에서 약물 A와 약물 b간 수면시간 증가에 유의한 차이가 없다

그러나, p-value 0.086은 < 0.1이므로 B약제의 효과가 유의수준 0.1에서는 유의하다고 볼 수 있다.

5.4 p-value의 실제 의미

p-value는 변수의 유의성 정도 혹은 검정의 유의도를 나타내준다.

분산분석 예제에서의 p-value

Type 1 error : H0가 참인데 기각

Type 2 error : H0가 거짓인데 채택

즉, p-value는 가설 채택/기각에 대한 정도

'🚀 What I Studied > Statistics' 카테고리의 다른 글

[Statistics] 현업 데이터 특성과 예측 모형 (1)	2022.10.05
[Statistics] 빅데이터 분석에서 확률과 분포 (0)	2022.09.20
[Statistics] 데이터 시각화와 통계적 해석 (0)	2022.09.18
[Statistics] 빅데이터 탐색의 첫걸음 (1)	2022.09.16
[Statistics] 데이터 과학과 통계 (0)	2022.09.07

최근에 올라온 글

« 2025/04 »
일	월	화	수	목	금	토
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30

Total

Today

Yesterday

규리스인 조르바

티스토리 뷰