마코프 부등식(Markov’s inequality) 수식의 의미를 파악해본다.

📐 마코프 부등식의 수식

\[P(X \ge a) \le \frac{E[X]}{a}\]
  • E[X] : 평균
  • a : 기준값

  • 평균 ÷ 기준값보다 확률은 절대 클 수 없다

  • 예컨대, 어떤 주머니 안에 공이 100개 있다. 그중 대부분은 작은 공이지만, 가끔 큰 공도 들어있다.
  • 그 중 한 개의 공을 뽑을 때 꺼낸 공이 아주 큰 공일 확률이 얼마나 될까?
    • 평균이 크지 않다면, 아주 큰 값이 나올 확률도 크지 않다.
    • 즉, 공들의 평균 크기가 2일 때, 10보다 큰 공을 뽑을 확률은 그보다 크지 않을 확률이 높다.
    • 왜냐하면 평균이 2라면, 대부분의 공이 10보다 훨씬 작기 때문이다.

📏 체비쇼프 부등식(Chebyshev inequality)의 수식

  • 마코프 부등식은 평균값(E[X])만 알고 있을 때 쓸 수 있으나 평균만으로는 데이터가 얼마나 흩어져 있는지는 모른다.
  • 평균에서 멀리 떨어진 값이 나올 확률을 알고 싶을 때는 체비쇼프 부등식(Chebyshev’s inequality)을 쓴다.
\[P(|X - \mu| \ge k\sigma) \le \frac{1}{k^2}\]
  • kσ : 평균에서 몇 배나 떨어진 값인지 나타내는 기준

체비쇼프 부등식 증명

1. 문제를 수식으로 표현하고 변수 만들기

  • 먼저 평균에서 벗어나는 정도 수식으로 표현하면 \(P(|X - \mu| \ge k\sigma)\)

  • 마코프 부등식을 쓸 수 있도록 ‘양수 변수’ 만들면

\(Y = (X - \mu)^2\)

  • 제곱값이므로 항상 0 이상이라서 마코프 부등식을 쓸 수 있다.

2. 마코프 부등식 적용하기

  • 마코프 부등식에 Y를 넣어보면,
\[P(Y \ge a) \le \frac{E[Y]}{a}\]
  • 여기서 E[Y]의 분산은 Var(X) = σ²

\(P(|X - \mu| \ge k\sigma)\)의 양변을 제곱하면

\[P((X - \mu)^2 \ge k^2\sigma^2)\]
  • 양변을 제곱한 값을 마코프 식에 넣어보면
\[P((X - \mu)^2 \ge k^2\sigma^2) \le \frac{E[(X - \mu)^2]}{k^2\sigma^2}\]

\(E[(X - \mu)^2] = \sigma^2\) 이니까,

\[P((X - \mu)^2 \ge k^2\sigma^2) \le \frac{\sigma^2}{k^2\sigma^2} = \frac{1}{k^2}\]
  • 두 수의 거리를 비교할 때 둘 다 제곱하면 절대값의 크고 작음의 관계가 변하지 않기 때문에 $$ X - \mu \(를 제곱한 확률은\) X - \mu $$의 확률과 같으므로
\[P(|X - \mu| \ge k\sigma) \le = \frac{1}{k^2}\]

즉, 체비쇼프 부등식은 “평균에서 멀리 벗어날 확률은 분산이 작을수록 작다”는 걸 마코프 부등식에 \((X - μ)^2\)를 넣어서 얻은 결과이다.

비교

이름 사용하는 값 핵심개념
마코프 부등식 평균 “평균이 작으면 큰 값 나올 확률도 작다”
체비쇼프 부등식 평균 + 분산 “흩어진 정도(분산)가 작으면, 평균에서 멀리 벗어날 확률은 작다”

참고자료

댓글남기기