다음 데이터들이 정규분포 \(N(\theta, 1)\)를 따를 때 “진짜 평균이 θ₀인지 아닌지”를 판단해본다.


💡문제 상황

\(X_1, X_2, \ldots, X_n\) 이 데이터들은 정규분포 \(N(\theta, 1)\)에서 나왔다. 즉, 평균이 \(\theta\)이고, 표준편차가 1인 분포이다.

🎯검정할 내용

두 가지 주장을 놓고 따져보려고 한다.

\[H_0: \theta = \theta_0 \quad \text{(귀무가설: 평균이 θ₀이다)}\]


\[H_1: \theta \neq \theta_0 \quad \text{(대립가설: 평균이 θ₀이 아니다)}\]

즉, “진짜 평균이 θ₀인지 아닌지”를 판단하려는 것이다.

🧩가능도비검정

“가능도비검정(Likelihood Ratio Test)”은 두 가설이 얼마나 데이터를 잘 설명하는지 비교하는 것이다.

“귀무가설이 맞다고 했을 때의 확률” ÷ “가장 잘 맞는 확률”

을 계산해서, 그 값이 너무 작으면 “귀무가설은 이상하다!”라고 판단하는 방법이다.

  1. 귀무가설이 맞다고 가정하면, 평균은 \(\theta_0\)이다. 따라서 데이터의 확률(가능도)은 \(f(x|\theta_0)\) 으로 계산된다.

  2. 대립가설에서는, 평균 \(\theta\)를 우리가 직접 정할 수 있다. \(\hat{\theta} = \bar{X}\)일 때 \(\theta\)가 데이터에 제일 잘 맞는다.

  3. 그래서 최대가능도는 \(f(x|\hat{\theta}) = f(x|\bar{X})\)

이제 두 확률의 비를 구하면,

\[\frac{f(x|\theta_0)}{f(x|\bar{X})}\]

정규분포 식을 대입하면, 복잡해 보이지만 중간에 다 약분되고,

\[\text{가능도비} = \exp\left(-\frac{n}{2}(\bar{X}-\theta_0)^2\right)\]
  • \(\bar{X}\)가 \(\theta_0\)와 멀어질수록 가능도비가 작아진다.
  • 즉, 표본평균이 귀무가설의 평균과 너무 다르면 “귀무가설은 틀렸다”는 뜻이다.

가능도비가 작을수록 귀무가설이 이상하니까,

\(n(\bar{X} - \theta_0)^2 > c\) 이면 귀무가설을 기각한다.

📊카이제곱 분포 이용하기

\(n(\bar{X} - \theta_0)^2\) 는 카이제곱 분포를 따른다. 왜냐하면,

  • 표본 \(X_1, \dots, X_n\)이 정규분포 \(N(\theta_0, 1)\)을 따른다면, 표본평균 \(\bar{X}\)의 분포는:
\[\bar{X} = \frac{1}{n} \sum_{i=1}^{n} X_i\]
  • 이는 정규분포의 성질에 따라 정규분포를 따르는 값들을 더해도 정규분포이기 때문이다.

    • 예를 들어 \(X_1 \sim N(\theta_0, 1)\)이고 \(X_2 \sim N(\theta_0, 1)\)라면

      \[X_1 + X_2 \sim N(\theta_0 + \theta_0, 1 + 1) = N(2\theta_0, 2)\]
  • 분산의 성질에서 \(\text{Var}(aX) = a^2 \text{Var}(X), \quad \text{Var}(X+Y) = \text{Var}(X)+\text{Var}(Y) \text{(X, Y는 독립)}\) 이므로,

  • \(\bar{X} = \frac{1}{n}(X_1 + \dots + X_n)\)의 분산을 계산하면,

  1. \(X_1 + \dots + X_n\)의 분산: \(\text{Var}(X_1 + \dots + X_n) = \text{Var}(X_1) + \dots + \text{Var}(X_n) = 1 + \dots + 1 = n\)

  2. \(\frac{1}{n}\) 곱하면: \(\text{Var}(\bar{X}) = \text{Var}\left(\frac{1}{n}(X_1 + \dots + X_n)\right) = \frac{1}{n^2} \cdot n = \frac{1}{n}\)

기댓값은 선형이니까:

\[\mathbb{E}[\bar{X}] = \frac{1}{n}(\mathbb{E}[X_1]+\dots+\mathbb{E}[X_n]) = \frac{1}{n}(n \theta_0) = \theta_0\]

따라서 정규분포 성질 때문에 \(\bar{X}\)도 정규분포이다.

\[\bar{X} \sim N\left(\theta_0, \frac{1}{n}\right)\]
  • 즉, 분산이 (1/n)인 정규분포를 따른다.

🌱 표준화(standardization)

  • 표본평균 \((\bar{X})\)이 가정한 평균 \((\theta_0)\)에서 얼마나 멀리 떨어져 있나를 확인할 때 “멀다”는 게 단순 거리를 확인하는 것으로는 알 수 없다. 왜냐하면 다음과 같을 때,
상황 평균 차이 표준편차 n 직관적 느낌
A 1.0 1 n=100 표본이 100개면 평균 1 차이는 매우 크다
B 1.0 10 n=100 표본이 100개여도 데이터가 너무 퍼져 있으면 그냥 우연일 수도 있다
  • 즉, 평균 차이만 보면 안 되고, 데이터의 흩어진 정도(표준편차)표본의 개수 n도 함께 고려해야 한다.
  • 표본평균은 원래 이렇게 퍼져 있다.
\[\bar{X} \sim N(\theta, \frac{1}{n})\]
  • 이제 “평균이 얼마나 멀리 있는가”를 데이터의 표준편차 기준으로 ‘몇 배나 멀리 있는가’로 바꾸면 서로 다른 상황을 공정하게 비교할 수 있다.

  • 표준화의 결과가 바로 통계량 Z

\[Z = \frac{\bar{X} - \theta_0}{1/\sqrt{n}} = \sqrt{n}(\bar{X} - \theta_0)\]
  • 이 식은 “표본평균이 θ₀에서 표준오차 \((1/√n)\)의 몇 배나 떨어져 있느냐”를 말한다.

  • 정규분포의 성질상, \((\bar{X} \sim N(\theta_0, \frac{1}{n}))\)라면 이 Z는 평균이 0이고 분산이 1인 정규분포, 즉 표준정규분포 N(0,1)을 따르게 된다.

\[Z = \sqrt{n}(\bar{X}-\theta_0) \sim N(0,1)\]
  • 표준정규 통계량은 “모든 상황을 같은 눈금으로 비교하는 도구”이다.
  • 정규분포 표준화 값의 제곱은 자유도 1인 카이제곱 분포를 따른다.
\[Z^2 = (\sqrt{n}(\bar{X} - \theta_0))^2 = n(\bar{X} - \theta_0)^2 \sim \chi^2_1\]
  • 즉, 표본평균을 표준화하고 제곱하면 자유도 1인 카이제곱 분포가 된다.
\[n(\bar{X} - \theta_0)^2 \sim \chi^2(1)\]

결론

귀무가설이 참일 때 \(n(\bar{X} - \theta_0)^2 \sim \chi^2(1)\) 이므로 유의수준 α에서의 기각역은

\(n(\bar{X} - \theta_0)^2 > \chi^2(1)\)

  • \(\chi^2_{1,1-\alpha}\): (자유도 1인 카이제곱분포에서 상위 α 지점의 값)
    • 예를 들어 α=0.05, 즉 0.05 유의수준이면, 100번 중 5번 정도만 우연으로 이런 큰 차이가 나올 수 있는 정도이다.

한편 표준정규분포를 따르는 확률번수의 제곱은 자유도가 1인 카이제곱분포를 따르므로 위의 기각역을 다음과 같이 나타낼 수 있다. \(∣T∣>z_{α/2}\)

“표본평균이 가정한 평균 θ₀에서 너무 멀면, ‘이건 우연이 아니야!’ 하고 귀무가설을 버린다.”


참고자료

댓글남기기