분산분석(ANOVA)에 대한 진실

JONGWON
4 min readMay 2, 2021

--

분산분석(ANOVA)은 그룹간의 (평균)비교를 할때 사용하는 통계적 방법론으로 알려져 있습니다.

흔히 알려진 T-test와는 다른 분포를 사용해서 그룹(집단)을 비교합니다.

이 글의 목적은 이론적 전개 및 해석보다는 ANOVA에 관련한 몇가지 개념을 전달해 착각을 해소하고자 합니다.

Photo by Luke Chesser on Unsplash

글의 요약

  1. 분산분석은 ‘두 집단의 샘플분산의 비율’을 활용한다.
  2. 분산분석은 ‘서로다른 수준의 요인과 그룹수를 비교할때 F검정을 사용 하는것’ 을 의미한다.
  3. ANOVA를 대신하여 T-test 반복하여 사용할 경우 검증 연구의 신뢰도 하락으로 이어진다.

Q1: 분산분석의 이름은 왜 ‘분산’일까?

티테스트(t-test)는 두 집단간의 비교를 할때, t 분포를 이용합니다. t 통계량이 애초부터 분산과 하나도 관계없는 꼴의 형태를 띄고 있습니다.

t-test의 검정 통계량은 다음과 같습니다.

t검정 통계량

하지만 분산분석(ANOVA test)는 F분포를 이용합니다. F 검정량은 두 집단의 샘플 분산의 비율입니다.

F 분포의 검정 통계량은 다음과 같습니다.

F검정은 동시에 각 집단의 샘플의 자유도와 신뢰수준에 의하여 통계량이 결정됩니다.

따라서 F검정 통계량은 ‘두 집단의 샘플분산의 비율’을 나타내기 때문에 이름이 ‘분산분석'인 것이죠.

Q2: 분산분석은 언제 사용해야하는가?

분산분석은 독립변수의 그룹과 요인(Factor)의 수에 따라 분석 방법이 달라집니다.

rfriend 블로그 발췌

즉, 몇개의 그룹인지 그리고 몇개의 요소인지에 따른다는 얘기입니다.

눈여겨볼 점은 t-test는 두 집단의 하나의 요소에 대해서 (주로 평균을) 비교하지만, one-way anova test의 경우 t-test처럼 사용할 수도 있지만, 3그룹 비교에서도 사용할 수 있다는 점이 장점이겠죠.

예를 들어볼까요?

  • 일원분산분석 (one-way ANOVA)

👉 작업자(요인1)에 따른 반도체 생산량 비교

  • N원분산분석 (N-way ANOVA)

👉 작업자(요인1)와 온도(요인2)에 따른 반도체 생산량 비교

그래서 분산분석이란 결국..

일원, 이원, n원의 차이는 결국 ‘서로다른 수준의 요인과 그룹수를 비교할때 F검정을 사용 하는것’으로 정리할 수 있습니다.

그런데 납득이 안가는 부분이 있습니다. 왜 t-test를 여러번 사용해서 비교분석하지 않을까요? 그냥 t-test를 여러번 사용하면 되는 부분일텐데 굳이 아노바 테스트를 해서 일을 복잡하게 만드 것일까요?

Q3: T-test를 많이 사용하면 되는거 아닌가?

당연한 고민이고, 어쩌면 그게 맞는것같기도 합니다. 하지만 이와같은 생각에는 맹점이 존재합니다. 바로 여러번 중복해서 비교할수록 신뢰도가 하락하는 점이죠.

예를 들어봅시다.

t-test 알파 0.05로 비교실험을 했을때 신뢰도는 1–0.05 = 0.95 [95%] 입니다.

이러한 실험을 두번 반복했다고 합시다. 통계학에서는 두개의 사건이 동시에 일어나는 경우 곱으로 처리합니다.

따라서 이때의 신뢰도는 0.95 * 0.95 = 0.9025 [약 90%] 입니다.

눈치 빠르신 분들은 바로 아시겠지만 1보다 작은 소수를 반복하여 곱하면 값이 줄어듭니다. 신뢰도도 마찬가지로 반복하여 곱하면 감소합니다.

따라서 n번 반복할수록 신뢰도는 감소하고, n이 무한대로갈수록 결국 신뢰도가 0이 되어버리는 현상이 발생합니다.

반면에 F-test 알파 0.05의 경우 집단간의 비교 검정이 단 한번 일어납니다. 즉 이때의 신뢰도는 1–0.05 = 0.95 [95%] 입니다.

n개의 그룹을 비교하는 경우에도 역시 한번의 검정이 일어나기 때문에 신뢰도는 동일하게 됩니다.

t-test를 고집하면 이와같은 넌센스가 일어납니다.

마치며

대표적으로 실험계획법과 같은 분야에서 분산분석을 적극 활용합니다. 또한 회귀분석을 할때도 회귀계수의 유의성 검정을 F-test를 통해 비교합니다. (단순회귀 경우도 포함).

때론 모델간의 차이가 존재하는지를 알기위해서도 사용되기도 합니다. 어플리케이션은 다양하고 방대하기때문에 관심있는부분은 스스로 알아봐야할 것입니다.

참고

[1] http://rfriend.tistory.com/131

--

--

JONGWON
JONGWON

Written by JONGWON

Interested in solving buisness problem with bigdata analysis

No responses yet