분산분석(ANOVA)은 그룹간의 (평균)비교를 할때 사용하는 통계적 방법론으로 알려져 있습니다.
흔히 알려진 T-test와는 다른 분포를 사용해서 그룹(집단)을 비교합니다.
이 글의 목적은 이론적 전개 및 해석보다는 ANOVA에 관련한 몇가지 개념을 전달해 착각을 해소하고자 합니다.
글의 요약
- 분산분석은 ‘두 집단의 샘플분산의 비율’을 활용한다.
- 분산분석은 ‘서로다른 수준의 요인과 그룹수를 비교할때 F검정을 사용 하는것’ 을 의미한다.
- ANOVA를 대신하여 T-test 반복하여 사용할 경우 검증 연구의 신뢰도 하락으로 이어진다.
Q1: 분산분석의 이름은 왜 ‘분산’일까?
티테스트(t-test)는 두 집단간의 비교를 할때, t 분포를 이용합니다. t 통계량이 애초부터 분산과 하나도 관계없는 꼴의 형태를 띄고 있습니다.
t-test의 검정 통계량은 다음과 같습니다.
하지만 분산분석(ANOVA test)는 F분포를 이용합니다. F 검정량은 두 집단의 샘플 분산의 비율입니다.
F 분포의 검정 통계량은 다음과 같습니다.
F검정은 동시에 각 집단의 샘플의 자유도와 신뢰수준에 의하여 통계량이 결정됩니다.
따라서 F검정 통계량은 ‘두 집단의 샘플분산의 비율’을 나타내기 때문에 이름이 ‘분산분석'인 것이죠.
Q2: 분산분석은 언제 사용해야하는가?
분산분석은 독립변수의 그룹과 요인(Factor)의 수에 따라 분석 방법이 달라집니다.
즉, 몇개의 그룹인지 그리고 몇개의 요소인지에 따른다는 얘기입니다.
눈여겨볼 점은 t-test는 두 집단의 하나의 요소에 대해서 (주로 평균을) 비교하지만, one-way anova test의 경우 t-test처럼 사용할 수도 있지만, 3그룹 비교에서도 사용할 수 있다는 점이 장점이겠죠.
예를 들어볼까요?
- 일원분산분석 (one-way ANOVA)
👉 작업자(요인1)에 따른 반도체 생산량 비교
- N원분산분석 (N-way ANOVA)
👉 작업자(요인1)와 온도(요인2)에 따른 반도체 생산량 비교
그래서 분산분석이란 결국..
일원, 이원, n원의 차이는 결국 ‘서로다른 수준의 요인과 그룹수를 비교할때 F검정을 사용 하는것’으로 정리할 수 있습니다.
그런데 납득이 안가는 부분이 있습니다. 왜 t-test를 여러번 사용해서 비교분석하지 않을까요? 그냥 t-test를 여러번 사용하면 되는 부분일텐데 굳이 아노바 테스트를 해서 일을 복잡하게 만드 것일까요?
Q3: T-test를 많이 사용하면 되는거 아닌가?
당연한 고민이고, 어쩌면 그게 맞는것같기도 합니다. 하지만 이와같은 생각에는 맹점이 존재합니다. 바로 여러번 중복해서 비교할수록 신뢰도가 하락하는 점이죠.
예를 들어봅시다.
t-test 알파 0.05로 비교실험을 했을때 신뢰도는 1–0.05 = 0.95 [95%] 입니다.
이러한 실험을 두번 반복했다고 합시다. 통계학에서는 두개의 사건이 동시에 일어나는 경우 곱으로 처리합니다.
따라서 이때의 신뢰도는 0.95 * 0.95 = 0.9025 [약 90%] 입니다.
눈치 빠르신 분들은 바로 아시겠지만 1보다 작은 소수를 반복하여 곱하면 값이 줄어듭니다. 신뢰도도 마찬가지로 반복하여 곱하면 감소합니다.
따라서 n번 반복할수록 신뢰도는 감소하고, n이 무한대로갈수록 결국 신뢰도가 0이 되어버리는 현상이 발생합니다.
반면에 F-test 알파 0.05의 경우 집단간의 비교 검정이 단 한번 일어납니다. 즉 이때의 신뢰도는 1–0.05 = 0.95 [95%] 입니다.
n개의 그룹을 비교하는 경우에도 역시 한번의 검정이 일어나기 때문에 신뢰도는 동일하게 됩니다.
t-test를 고집하면 이와같은 넌센스가 일어납니다.
마치며
대표적으로 실험계획법과 같은 분야에서 분산분석을 적극 활용합니다. 또한 회귀분석을 할때도 회귀계수의 유의성 검정을 F-test를 통해 비교합니다. (단순회귀 경우도 포함).
때론 모델간의 차이가 존재하는지를 알기위해서도 사용되기도 합니다. 어플리케이션은 다양하고 방대하기때문에 관심있는부분은 스스로 알아봐야할 것입니다.
참고