• 추정량 estimator
    • 모수를 추정하는 데 사용되는 통계량
  • 추정값 estimate
    • 데이터에 근거한 추정량이 실현된 값
    • 점추정법
    • 모수를 하나의 값으로 추정하는 방법

점추정

  • 칼 피어슨은 측정치 자체가 확률분포를 가진다고 생각했다. 그는 측정치의 분포는 평균, 분산, 왜도, 첨도라는 4개의 값(적률)으로 확률분포를 파악할 수 있다고 생각했다.
  • 피셔는 확률분포는 수학적 함수이고 수집된 데이터를 이용하여 확률분포를 추정하는 것이라고 생각했다. 피셔는 좋은 통계량은 일치성, 불편성, 효율성을 가지는 통계량이라고 생각했다.
    • 일치성 consistency: 데이터를 수집하면 할수록 통계량이 모수에 접근할 확률이 높아지는 특성
    • 불편성 unbiasedness: 통계량의 확률분포상 가능한 모든 값을 평균한 값이 모집단의 모수와 같은 특성
    • 효율성 efficiency: 통계량 값이 모집단 모수를 중심으로 얼마나 밀집해서 분포하는지를 파악한 특성
    • 예를 들어, 총을 과녁에 쏠 때 과녁의 중심이 모집단의 모수라고 생각하면 총을 쏜 결과가 통계량 값이다. 즉, 나의 총쏘기 실력으로 쏠 수 있는 여러 가지 결과 중의 하나가 통계량 값이 되므로 나의 총쏘기 실력이 결국 통계량이 된다.
      • 일치성: 총을 계속 쏘면 언젠가는 중심을 맞춘다.
      • 불편성: 여러 개의 총알 흔적을 평균하면 결국 중심과 같아진다.
      • 효율성: 총알 흔적이 밀집해 있다.

적률추정량 method of moments

  • 1800년대 초반 칼 피어슨에 의해 제안했다.
    • n차 모적률과 n차 표본적률을 일치시켜 모수를 추정하는 방법, 즉 모집단의 적률을 표본의 적률로 추측한 후 모수를 추정하는 추정량이다.
  • 점추정량을 구하는 가장 오래된 방법으로 최대가능도보다 자주 사용되진 않으나 모적률에 표본적률을 대응해서 구하므로 계산이 간단하다. 또한 표본의 크기가 커지면 적률추정량은 모수에 가까워지는 일치성이 있는 일치추정량이다.
  • 그러나 적률추정량이 불편추정량이 아닌 경우도 있고 유일하게 도출되지 못하는 경우도 있다. 비현실적인 추정량을 제시하는 경우가 있다는 단점이 존재한다. 

최대가능도추정량 maximum likelihood method

  • 1821년 가우스에 의해 제안, 1922년 피셔에 의해 재발견되어 발전했다.
  • 데이터를 잘 설명할 가능성이 가장 높은 모수를 추정하는 방법, 가능도함수를 구하고 이를 최대로 하는 모수값으로 모수를 추정한다.
  • 데이터가 고정되어 있고 특정 확률분포를 가정했을 때, 이 데이터들을 가장 잘 설명할 수 있는 모수를 찾는 것
  • 추정량을 구하는 수식이 복잡하고 계산에 시간이 많이 드는 문제가 있었으나 컴퓨터의 성능이 급격히 발전하면서 통계학의 주요한 추정방법으로 자리잡았다.

비교

  • 칼 피어슨이 많은 데이터를 수집한 후 분포를 결정하는 모수를 추정하면 원래의 모수와 비슷할 것이라고 생각했다면, 피셔는 얻은 데이터는 모집단에서 임의로 추출한 표본이라고 생각하고 모집단에서 임의로 추출된 표본의 함수통계량으로 모집단을 추정할 수 있다고 생각했다.
  • 동전 하나를 던졌을 때, 앞면이 많이 나왔다. “이 동전이 앞면이 나올 확률이 0.5일까? 아니면 앞면이 더 잘 나오는 동전일까?”를 추측하고자 한다.

1. 적률추정량 (Method of Moments): “눈에 보이는 결과를 그대로 따라 하는 방법”

  • 동전을 10번 던졌더니 앞면이 7번 나왔다.
  • 그럼 앞면 비율은 7/10 = 0.7인 것으로 추정한다.
  • 그냥 내가 본 결과의 평균을 진짜 값이라고 생각하는 직관적인 방식이다.

2. 최대가능도추정량 (Maximum Likelihood Estimation): “어떤 값일 때 이 결과가 제일 자연스러울까 따져보는 방법”

  • 앞면이 10번 중 7번 나온 결과가 있다.
  • 앞면 확률이 0.6, 0.7, 0.8일 때 각가의 가능성을 계산해보고 “이 결과를 가장 잘 설명하는 확률”을 선택한다.

바람직한 추정량의 기준

충분성 sufficiency

완비성 completeness

완비충분통계량

균일최소분산불편추정량(uniformly minimun variance unbiased estimator, UMVUE)

피셔의 정보량

구간추정법

  • 모수의 값이 빈번히 포함되는 구간을 추정하는 방법

가설검정의 오류

  • 1종 오류: 귀무가설이 참일 때 이를 기각하는 오류
    • 김씨는 무죄이나 유죄로 판단
  • 2종 오류: 귀무가설이 거짓일 때 이를 기각하지 못하는 오류
    • 김씨는 유죄이나 무죄로 판단
  • 1종 오류가 더 치명적이다
  • 1/2종 오류 비교

최강력검정

  • 귀무가설과 대립가설이 모두 단순가설인 경우 사용
  • 단순가설과 복합가설의 차이
    • 예를 들어, 정규분포의 평균과 분산을 저희가 모르고 있는 상태에서 가설을 설정할 때,
    • 평균과 분산이 각각 0과 1이라고 가정할 때, 이는 분포를 N(0,1)로 완전히 결정하는 가설이므로 단순가설이다.
    • 반면에, 평균이 1보다 클 것이다 라고 가정하는 것은 복합가설이다.
  • 참고자료:~[수리통계학] 43. 최량검정법 증명

가능도비검정

참고자료

댓글남기기