가설검정 - 가능도비검정 문제
다음 데이터들이 정규분포 \(N(\theta, 1)\)를 따를 때 “진짜 평균이 θ₀인지 아닌지”를 판단해본다.
💡문제 상황
\(X_1, X_2, \ldots, X_n\) 이 데이터들은 정규분포 \(N(\theta, 1)\)에서 나왔다. 즉, 평균이 \(\theta\)이고, 표준편차가 1인 분포이다.
🎯검정할 내용
두 가지 주장을 놓고 따져보려고 한다.
\[H_0: \theta = \theta_0 \quad \text{(귀무가설: 평균이 θ₀이다)}\]즉, “진짜 평균이 θ₀인지 아닌지”를 판단하려는 것이다.
🧩가능도비검정
“가능도비검정(Likelihood Ratio Test)”은 두 가설이 얼마나 데이터를 잘 설명하는지 비교하는 것이다.
“귀무가설이 맞다고 했을 때의 확률” ÷ “가장 잘 맞는 확률”
을 계산해서, 그 값이 너무 작으면 “귀무가설은 이상하다!”라고 판단하는 방법이다.
-
귀무가설이 맞다고 가정하면, 평균은 \(\theta_0\)이다. 따라서 데이터의 확률(가능도)은 \(f(x|\theta_0)\) 으로 계산된다.
-
대립가설에서는, 평균 \(\theta\)를 우리가 직접 정할 수 있다. \(\hat{\theta} = \bar{X}\)일 때 \(\theta\)가 데이터에 제일 잘 맞는다.
-
그래서 최대가능도는 \(f(x|\hat{\theta}) = f(x|\bar{X})\)
이제 두 확률의 비를 구하면,
\[\frac{f(x|\theta_0)}{f(x|\bar{X})}\]정규분포 식을 대입하면, 복잡해 보이지만 중간에 다 약분되고,
\[\text{가능도비} = \exp\left(-\frac{n}{2}(\bar{X}-\theta_0)^2\right)\]- \(\bar{X}\)가 \(\theta_0\)와 멀어질수록 가능도비가 작아진다.
- 즉, 표본평균이 귀무가설의 평균과 너무 다르면 “귀무가설은 틀렸다”는 뜻이다.
가능도비가 작을수록 귀무가설이 이상하니까,
\(n(\bar{X} - \theta_0)^2 > c\) 이면 귀무가설을 기각한다.
📊카이제곱 분포 이용하기
\(n(\bar{X} - \theta_0)^2\) 는 카이제곱 분포를 따른다. 왜냐하면,
- 표본 \(X_1, \dots, X_n\)이 정규분포 \(N(\theta_0, 1)\)을 따른다면, 표본평균 \(\bar{X}\)의 분포는:
-
이는 정규분포의 성질에 따라 정규분포를 따르는 값들을 더해도 정규분포이기 때문이다.
-
예를 들어 \(X_1 \sim N(\theta_0, 1)\)이고 \(X_2 \sim N(\theta_0, 1)\)라면
\[X_1 + X_2 \sim N(\theta_0 + \theta_0, 1 + 1) = N(2\theta_0, 2)\]
-
-
분산의 성질에서 \(\text{Var}(aX) = a^2 \text{Var}(X), \quad \text{Var}(X+Y) = \text{Var}(X)+\text{Var}(Y) \text{(X, Y는 독립)}\) 이므로,
-
\(\bar{X} = \frac{1}{n}(X_1 + \dots + X_n)\)의 분산을 계산하면,
-
\(X_1 + \dots + X_n\)의 분산: \(\text{Var}(X_1 + \dots + X_n) = \text{Var}(X_1) + \dots + \text{Var}(X_n) = 1 + \dots + 1 = n\)
-
\(\frac{1}{n}\) 곱하면: \(\text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n}(X_1 + \dots + X_n)\right) = \frac{1}{n^2} \cdot n = \frac{1}{n}\)
기댓값은 선형이니까:
\[\mathbb{E}[\bar{X}] = \frac{1}{n}(\mathbb{E}[X_1]+\dots+\mathbb{E}[X_n]) = \frac{1}{n}(n \theta_0) = \theta_0\]따라서 정규분포 성질 때문에 \(\bar{X}\)도 정규분포이다.
\[\bar{X} \sim N\left(\theta_0, \frac{1}{n}\right)\]- 즉, 분산이 (1/n)인 정규분포를 따른다.
🌱 표준화(standardization)
- 표본평균 \((\bar{X})\)이 가정한 평균 \((\theta_0)\)에서 얼마나 멀리 떨어져 있나를 확인할 때 “멀다”는 게 단순 거리를 확인하는 것으로는 알 수 없다. 왜냐하면 다음과 같을 때,
| 상황 | 평균 차이 | 표준편차 | n | 직관적 느낌 |
|---|---|---|---|---|
| A | 1.0 | 1 | n=100 | 표본이 100개면 평균 1 차이는 매우 크다 |
| B | 1.0 | 10 | n=100 | 표본이 100개여도 데이터가 너무 퍼져 있으면 그냥 우연일 수도 있다 |
- 즉, 평균 차이만 보면 안 되고, 데이터의 흩어진 정도(표준편차)와 표본의 개수 n도 함께 고려해야 한다.
- 표본평균은 원래 이렇게 퍼져 있다.
-
이제 “평균이 얼마나 멀리 있는가”를 데이터의 표준편차 기준으로 ‘몇 배나 멀리 있는가’로 바꾸면 서로 다른 상황을 공정하게 비교할 수 있다.
-
표준화의 결과가 바로 통계량 Z
-
이 식은 “표본평균이 θ₀에서 표준오차 \((1/√n)\)의 몇 배나 떨어져 있느냐”를 말한다.
-
정규분포의 성질상, \((\bar{X} \sim N(\theta_0, \frac{1}{n}))\)라면 이 Z는 평균이 0이고 분산이 1인 정규분포, 즉 표준정규분포 N(0,1)을 따르게 된다.
- 표준정규 통계량은 “모든 상황을 같은 눈금으로 비교하는 도구”이다.
- 정규분포 표준화 값의 제곱은 자유도 1인 카이제곱 분포를 따른다.
- 즉, 표본평균을 표준화하고 제곱하면 자유도 1인 카이제곱 분포가 된다.
결론
귀무가설이 참일 때 \(n(\bar{X} - \theta_0)^2 \sim \chi^2(1)\) 이므로 유의수준 α에서의 기각역은
\(n(\bar{X} - \theta_0)^2 > \chi^2(1)\)
- \(\chi^2_{1,1-\alpha}\): (자유도 1인 카이제곱분포에서 상위 α 지점의 값)
- 예를 들어 α=0.05, 즉 0.05 유의수준이면, 100번 중 5번 정도만 우연으로 이런 큰 차이가 나올 수 있는 정도이다.
한편 표준정규분포를 따르는 확률번수의 제곱은 자유도가 1인 카이제곱분포를 따르므로 위의 기각역을 다음과 같이 나타낼 수 있다. \(∣T∣>z_{α/2}\)
“표본평균이 가정한 평균 θ₀에서 너무 멀면, ‘이건 우연이 아니야!’ 하고 귀무가설을 버린다.”
댓글남기기