이 시리즈의 제목은 조금 자극적일것입니다. 시리즈의 이름으로 선정됐기 때문이죠 😅
그래도 거의 모든 것으로 빠져나갈 틈을 조금 만들어 봤습니다.
그동안 통계적 검정이란 무엇인지와 Z검정과 T검정, 그리고 비율검정 및 카이제곱 검정에 대해 다루었습니다.
이번 F검정을 마지막으로 검정 시리즈를 마무리할까 합니다.
글의요약
- F검정에서 활용하는 F분포는 서로 독립인 제곱 분포의 비율로 정의되며 이 분포를 바탕으로 F검정량을 도출하여 F검정을 수행할 수 있습니다.
- F검정량은 집단간의 분산 동일한지 확인하거나, ANOVA 및 회귀모형의 적합도를 판단하는데 활용됩니다.
- F검정량은 F 검정량은 두 집단의 샘플 분산의 비율로 정의되기도 하며, F검정량이 커질수록 집단내 분산, 설명된 분산이 상대적으로 크다는것을 의미합니다.
- F검정에 대한 코드는 아래의 본문을 참조해주세요.
1. F 검정이란 무엇인가?
F 검정이란 귀무가설 하의 F검정량을 바탕으로 가설 검정을 수행하는 방법을 일컫습니다.
F 분포
F 검정에는 F 분포가 사용됩니다. F분포의 확률변수는 서로 독립인 카이제곱 분포의 비율(ratio)로 정의됩니다.
확률분포는 다음과 같습니다.
여러가지 인자를 구분하여 F분포를 표현하면 다음과 같습니다.
2. F 검정의 활용
F 검정량은 다음의 경우 활용됩니다.
2–1. 집단간의 분산 동일한지 확인
- F 검정의 가설은 ANOVA와 마찬가지로 집단의 분산이 모두 동일하다는 것 입니다.
이때의 가설은 F통계량은 1이다[두 집단의 비율이 같기 때문입니다.] 가 됩니다.
2–2. ANOVA
- 이전 포스팅에서도 얘기했지만, ANOVA 에서는 그룹간, 그룹내의 분산 변동을 측정해 평균을 비교하는데 활용됩니다.
또한, F검정은 두 집단간[혹은 측정, 예를 들면 실험]의 반복 비교를 줄이고 집단간의 평균을 비교할 수 있다는 점에서 큰 장점이 있습니다.
2–3. 회귀분석 적합도 측정
- F검정량을 활용해 모형이 데이터에 얼마나 잘 적합했는지를 검정합니다.
3. F 검정량
F 검정량은 두 집단의 샘플 분산의 비율입니다.
[F분포가 카이제곱 분포의 비율이었음을 상기한다면 더 이해가 쉬울것 같습니다.]
n원 분산분석 ANOVA를 할 경우에는 검정량의 의미가 더 상세해집니다.
분자인 집단 내 분산은 다음과 같이 정의됩니다.
K는 비교 그룹(변인) 의 수를 나타내고 y bar는 전체 평균, Y_i bar는 샘플 평균을 의미합니다.
분모인 집단간 분산은 다음과 같이 정의됩니다.
F검정량이 커질수록 집단내 분산, 설명된 분산이 상대적으로 크다는 뜻이며 이는 그룹간의 평균 차가 크지 않고 안정적[== 동일] 이라는 것을 의미합니다.
4. R code로 확인해보자. 👀
👉 공장 프로세스 개선으로 프로세스 전후 생산 제품의 결함 갯수를 바탕으로 프로세스 전후 분산차이를 확인해봅시다. 이를 통해 프로세스 개선이 유의미한지를 검증해봅시다.
귀무가설(H0)은 두 집단의 분산 비율은 같다입니다.
마치며
F검정에 대한 개념, 활용도, 코드 를 소개했습니다. 다음 글에서는 통계적 검정력에 대해 이야기하고자 합니다.
긴 글 읽어 주셔서 감사합니다.
참고
[1] https://en.wikipedia.org/wiki/F-test
[2] https://ko.wikipedia.org/wiki/F_분포
[3] https://datacookbook.kr/77
[4] https://www.statisticshowto.com/probability-and-statistics/hypothesis-testing/f-test/