통계학에서 가설검정을 할때는 P-value를 계산합니다. 그리고 이 값을 이용하여 대립가설의 채택유무를 정합니다.
통상적으로 0.05라는 값보다 작으면 대립가설을 유의하다고 간주합니다.
저 역시 학교에서 이렇게(혹은 좀더 깊게…) 배웠고, 지금도 의심의 여지가 없는 과학적인 방법이란것을 이해하고 있습니다.
하지만 동시에 이 값이 진리가 아닌것도 이해하고 있습니다.
글의 요약
- P-value는 대립가설(H1)이 참일 확률이 아니라, 귀무가설(H0)가 맞다는 전제 하에 극단적 통계값(anomaly)이 관측될 확률을 의미한다.
- P-value는 관측수(n)에 반비례하며, 통계적으로 악용될 소지가 있다.
- 연구자는 P-value를 제시할때, 신뢰구간(CI)과 효과크기(effect size)를 제공하거나 베이지안 통계학 기반의 가설검증을 수행하면 좋다.
1. P-value의 본래 목적
p값은 피셔에 의해 처음 고안되었습니다. 피셔는 p값을 데이터가 귀무가설과 얼마나 일치하는지 알아보기 위한 도구로 활용하기를 제안했습니다.
즉, 귀무가설이 맞다고 가정했을때 극단적 통계값이 나올 확률을 나타냅니다. 이 확률이 낮을수록 귀무가설과 데이터가 불일치 할 경향이 높기 때문에 대립가설을 채택하게 됩니다.
위 그림에서는 M이라는 분포(H0) 하에 샘플 x1과 x2의 p-value는 m1과 m2입니다.이때 M분포 하에 m2라는 이상 값이 구해질 확률을 p-value라고 합니다.이 값이 낮기 때문에 x2의 샘플은 M분포를 따르는 데이터라고 말하기 어렵습니다. 따라서 M분포를 기각합니다.
다시 말하자면 p-value란 ‘대립가설(제시하고자 하는 가설)이 참일 확률’이 아니라는 얘기가 됩니다.
하지만, 어떤 이유에서인지 참/거짓을 가르거나, 제대로된 검증 없이 유의하다고 못박아 버리는 경우가 종종 생기는듯 합니다.
2. P-value의 한계
p값은 근본적으로 한계를 가지고 있습니다. 이 한계를 악용하여 연구 성과를 입증하는 연구 사례도 많다고 합니다.
익히 알려진 p-value의 한계점은 다음과 같습니다.
A. 관측치가 많을수록 p값이 작아진다.
임계값에 도달하기 위해 일부러 관측치를 많이 증가시켜, 억지로 유의하게 만드는 방법이 있습니다. 즉 빅데이터 분석에서는 통계적 유의성을 따지기 위해 p값이 올바른 척도로서 제 역할을 해낼 수 없습니다.
B. 선택적으로 p값과 통계적 방법론을 선택한다.
유의한 p값만을 제시하는 경우를 말합니다. 즉, 유의하지 않은 변수를 제거하고 유의한 변수만 활용하여 눈속임을 할 수도 있게 됩니다. 또한, 통계적 방법론을 바꾸는 방법도 존재합니다. 즉, 최대한 유의한 결과가 나올 수 있도록 통계적 방법론을 조작하는것을 말합니다.
3. Then, What should we do?
이러한 한계점이 있음에도 불구하고 p값은 충분히 과학적이며 용도가 자명하기 때문에 버릴수는 없는 척도일 것입니다. 그렇다면 p값의 한계점을 보완할만한 척도가 있을까요?
1. 신뢰구간(CI) / 효과크기(effect size) 공개
신뢰구간을 제시함으로써 채택하는 대립가설의 구체적인 크기를 알 수 있게 됩니다. 예를들어, 교육방법론을 증명하기 위해 특정 교육에 따른 전후 시험성적을 비교했을때, p값을 통해 가설을 기각하는것 뿐만아니라 신뢰구간을 제시하여 크기와 정도를 함께 제시할 수 있습니다.
효과크기를 제시하는것 역시 같은 맥락에서 바라볼 수 있습니다.
2. 베이지안 통계학 가설검정
p값을 주로 활용하는 빈도론적 관점에서 벗어나, 베이지안 통계학을 활용하는 방법입니다.
베이지안 통계학은 prior 확률과 이에 대한 분포를 이용하여 각각 귀무가설 대립가설에 대한 사후 확률을 추정합니다. 그리고 이 중에서 높은 확률을 가지는 가설을 채택합니다.
기존의 유의검정은 귀무가설을 검증만 하지만, 베이지안 통계학은 귀무가설과 대립가설을 비교 및 검정한다는 차이가 존재합니다. 따라서, 직접적인 검증이 가능해집니다.
베이지안 통계학은 귀무가설이라는 일종의 ‘허수아비 가설’을 검증함으로써 귀무가설을 입증하려는 방식과 와 크게 상반됩니다.
참고
[1] http://scienceon.hani.co.kr/402347
[2] http://scienceon.hani.co.kr/429071
[3] http://www.editage.co.kr/insights/is-my-research-significant-why-you-shouldn’t-rely-on-p-values