최소충분통계량에 대한 다음 두 문제의 풀이를 통해 해당 개념을 이해해본다.

문제 상황 1

  • \(X_1, X_2, \dots, X_n\) 은 포아송분포 \(Poisson(\lambda)\) 를 따르는 확률표본일 때 \(\lambda\) 에 대한 최소충분통계량을 구하라.
  • 최소충분통계량이란 데이터를 다 쓰지 않고도 모수 \(\lambda\) 를 알아내는 데 꼭 필요한 정보만 모아 정리한 통계량

  • 충분통계량을 찾기 위해 피셔-네이만 인수분해 정리를 사용

  • 이 정리에 따르면, 결합확률함수 f(x|\(\lambda\))를 두 부분으로 인수분해할 수 있으면 그 중에서 데이터를 통해 계산 가능한 함수(통계량)이 충분통계량이다.

인수분해

포아송 결합확률: \(f(x|\lambda)= \frac{e^{-n\lambda}\lambda^{\sum x_i}}{\prod x_i!}\)

이를 아래처럼 인수분해하면,

\[f(x|\lambda) = \underbrace{e^{-n\lambda} \lambda^{\sum x_i}}*{g(T,\lambda)} \cdot \underbrace{\frac{1}{\prod x_i!}}*{h(x)}\]
부분 의미
\(g(T,\lambda)\) 모수 \(\lambda\) 와 통계량 \(T = \sum X_i\) 만 포함
h(x) \(\lambda\) 와 관계 없는 항

✨ 결론

  • 포아송은 평균 = 분산 = \(\lambda\)이므로 여러 개 샘플이 있을 때, 결국 이 중요하다.

문제 상황 2

  • \[X_1, X_2 \sim N(\mu, 1)\]
  • 모수: \(\mu\)
  • 충분통계량: \(X_1 + X_2\)

일 때, 보조통계량은?

보조통계량이란

  • 모수(여기서는 \(\mu\))에 대한 정보를 전혀 포함하지 않는 통계량
  • 즉, 어떤 숫자를 계산해도 \(\mu\) 가 바뀌어도 분포 모습이 안 바뀌는 것이다.

  • 두 확률변수에서 평균이 \(\mu\) 라고 할 때:

  • 합 \(X_1 + X_2\)는 평균이 \(2\mu\)이므로 \(\mu\)에 따라 값이 달라진다.
  • 하지만 \(X_1 - X_2\) 의 경우는
\[X_1 - X_2 \sim N(\mu - \mu, 1 + 1) = N(0, 2)\]
  • 여기서 평균이 0이므로, \(X_1 - X_2\)는 \(\mu\)가 몇이든 같은 분포를 가진다.

결론

\(X_1 - X_2\) 는 모수 \(\mu\) 의 정보를 하나도 포함하지 않는 보조통계량이다.

참고자료

댓글남기기