제목은 자극적으로 선정했습니다만, 거의 모든 것으로 빠져나갈 틈을 조금 만들어 봤습니다.
이전 포스팅에서 통계적 검정이란 무엇인지에 대해 간단히 얘기했습니다.
글을 간단히 요약하자면, 통계적 검정은 ‘가설을 검정'하는것에 목적이 있습니다. 여기서 말하는 가설이란, 모집단의 추정일수도 있고, 집단간의 특징 비교일수도 있습니다.
그렇다면 이러한 통계적 검정에는 어떤게 있는지, 구현은 어떤 방식으로 할 수 있는지에 대해 기술해보고자 합니다.
글의 요약
- Z-검정과 T-검정은 가설(모집단 평균 추정 혹은 두 집단의 차이 검증)을
- 활용 모수(표본평균과 모 표준편차 혹은 표본 표준편차 값)을 활용해
- 분포 기반의 통계검정을 하는것을 의미하며
- 표본의 갯수 및 분포 정보에 따라 서로 다른 검정을 수행하는것을 의미합니다.
1. Z-검정과 T-검정에 대하여.
Z와 T를 활용한 통계적 검정 방법론을 알아보기 전에 Z분포와 T분포의 차이를 먼저 확인해야 합니다.
Z-Distribution?
Z분포는 모집단의 정규분포를 의미합니다. 모집단이란 우리가 알고 싶어하는 그 대상입니다. [모집단의 특성을 파악한다고 하면 정규분포의 주요 인자인 평균과 분산을 의미합니다.]
하지만 모집단이기 때문에 실제 대상의 평균과 분산을 모르는 경우가 많았습니다.
그래서 샘플링된 평균과 분산이 모집단의 특성을 잘 반영한다고 가정했습니다. 그러니 사소하더라도 오차가 발생하기 마련입니다.
T-Distribution?
그래서 정규분포는 아니지만 정규분포에 근사 시켜 모집단의 값을 추정하는 T 분포가 활용됐습니다.
T분포는 모집단 정규 분포의 분산은 알 수 없었지만 평균은 측정할 수 있었기 때문입니다.
Z분포와 가장 큰 차이는 T 분포는 정규분포와 꼬리 부분 면적이 더 넓다는 것입니다. 분산이 샘플 추정량에 의존하기 때문입니다.
2. 무엇을 검정하나요?
Z검정과 T검정으로 모집단의 평균과 분산에 대한 가설 검정을 합니다.
주로 다음과 같은 문제를 풉니다.
- 집단 A 시험 결과는 평균 90, 표준편차 15를 따른다. 100명을 뽑았을 때 평균값이 80이라면 신뢰구간 95%로 검증하라. [1표본 Z검정]
- 남여 100명의 몸무게의 평균에 서로 차이가 있는지 확인하라. [2표본 Z검정]
검정의 종류: 어떤 검정들이 있나요? 👀
그러면 검정의 종류에 대해 알아봅시다.
3. Z-검정량
z-test라 하면 흔히 단일 표본, 두 표본 z검정… 이런 이야기를 많이 들으셨을 것 같습니다.
사실 우리는 고등학교때 수학을 공부 하셨다면 이미 z-검정을 알고 있습니다.
이 표가 익숙하다면 당신은 확률과 통계는 백점이겠군요..
주로 나오는 문제 패턴은 눈감고도 생각이 날 정도입니다. 정규성을 가정한 샘플된 집단의 평균과 표준편차를 구하고 그에 대한 95% 신뢰구간을 구하는 문제가 유명했죠. 그나마 문제를 꼰다면 한쪽검정이냐, 양쪽검정이냐 정도가 되겠네요.
그래서 당시엔 Z 분포를 이용한 확률값을 구하기만 했습니다.
한 단계 더 나아가볼까요? 앞선 포스팅에 따르면 통계적 검정은 가설을 검정하는 것을 목표로 합니다.
[그리고 연구자는 귀무가설이 맞다는 가정 하에 연구를 진행합니다. ]
귀무가설과 Z 검정량
검정시 귀무가설은 다음과 같습니다.
H0: 모집단 평균(m)는 M0 일 것이다.
이 가설을 바탕으로 Z의 검정량은 아래와 같이 정의됩니다.
one-sided test 인지 two-sided test인지에 따라 계산 방식은 다르겠으나 귀무가설 하에 구해진 Z값을 기준으로 정규분포 꼬리 면적을 구할 수 있습니다. 이를 바탕으로 p-value를 구하고 가설의 기각 여부를 결정합니다.
즉, p-value란 귀무가설이 맞다는 가정하에 극단적 결과가 관찰될 확률을 의미합니다.
자세한 내용을 확인하고 싶다면 이 글을 읽어보세요.
위의 표와 같이 이미 구해진 Z값 통계 표를 활용할 수 도 있고, 통계 패키지를 이용해 계산할 수도 있습니다.
R code로 확인해보자.
다음의 가설을 Z검정을 활용해 R로 구현해 봅시다.
모집단 특징: 표준편차 5
검증할 귀무 가설(H0): 모집단의 평균은 90이다.
샘플링: 40명
표본 평균: 85
신뢰도: 95%
위의 표본 결과를 바탕으로 귀무가설을 검증하면 다음과 같습니다.
귀무가설이 m = 90 이므로 양측 검정을 수행합니다. [== 같다의 부정은 다르다 이므로 양측검정 수행]
4. T-검정량
T 검정은 T 분포를 활용해 검정량이 귀무가설하에 t 분포를 따르는지를 확인하는 가설 검정 방법론이라고 합니다.
귀무가설과 T 검정량
검정시 귀무가설은 다음과 같습니다.
H0: 모집단 평균(m)는 M0 일 것이다.
이를 바탕으로 T 검정량은 다음과 같이 정의됩니다.
앞서 설명한 것 것 처럼 t 분포는 모집단의 평균은 알지만 분산은 모른다는것을 가정합니다. 따라서 Z검정량과 다르게 검정량 계산 시 표본 표준편차를 활용합니다.
그리고 z 검정과 똑같이 t분포 기반의 p-value값을 구하여 통계 검정을 수행합니다.
참고로 표본은 30개 이상이면 CLT를 따르기 때문에 T 검정은 30개 이하의 표본일 경우에 활용하면 좋습니다.
R code로 확인해보자.
아래의 가설을 T검정을 활용해 R로 구현해 봅시다.
검증할 귀무 가설(H0): 모집단의 평균은 90이다.
샘플링: 20명
표본 평균 및 표준편차: 85, 3.244428
신뢰도: 95%
5. 마치며
Z검정과 다른점은 T 분포는 모집단에 대한 정보가 없기 때문에 모집단 정보를 제외하고 표본의 평균과 표준편차를 가지고 통계검정을 합니다.
귀무가설이 m = 90 이므로 양측 검정을 수행합니다. [== 같다의 부정은 다르다 이므로 양측검정 수행]
위의 표본 결과를 바탕으로 귀무가설을 검증하면 다음과 같습니다.
검정량은 두 집단비교, 비율 검정등 가설 설정 환경에 따라 그 공식이 달라집니다. 귀무가설 하에 검정량을 산출한다는 점에서는 식이 달라질 뿐 방법론은 동일합니다.
참고
Z검정
[1] https://en.wikipedia.org/wiki/Z-test
[2] https://en.wikipedia.org/wiki/P-value
[3] https://www.cyclismo.org/tutorial/R/pValues.html
T검정
[1] https://en.wikipedia.org/wiki/Student's_t-test#One-sample_t-test
[2] https://ko.wikipedia.org/wiki/스튜던트_t_분포
[3] https://namu.wiki/w/스튜던츠 t-분포