title: 통계학과 확률의 개념 정리 1 search: true categories:

  • statistics tags:
  • population
  • probability
  • random variable

통계학 statistics

  • 자료를 모으고, 정리한 다음, 이를 분석하고 해석하는 학문

기술통계학

  • 주어진 자료 자체를 분석하는 학문
  • ‘주어진 자료가 어떻게 생겼는가?’는 질문에 대한 좋은 답변은 자료의 특성, 자료의 평균, 분산, 분포 모양을 알려주면 된다

추리통계학

  • 주어진 자료(표본, sample)를 이용하여 모집단의 특성을 추론하는 학문

모집단 population

  • 관심이 되는 전체
  • 모집단은 구체적으로 알 수 없고 불확실하다고 가정한다.
  • 모집단의 불확실성은 확률과 확률 분포로 표현된다.

표본 sample

  • 실제 조사/관측되는 모집단의 일부

모수 parameter

  • 모집단의 특성을 수치로 나타낸 것으로, 모평균과 모분산이 있다.
  • 모집단은 유일하게 존재하는 반면, 표본은 여러 개 존재한다. 따라서 모집단의 한 모수에 대해 통계량은 표본에 따라 다른 수치를 취할 수 있으므로 확률변수의 함수가 된다.

통계량 statistic

  • 표본의 특성을 수치로 나타낸 것
  • 가상 표본의 함수로 표본평균과 표본분산이 있다.
  • 여기서 표본은 모집단의 일부이자 확률 변수이다, 따라서 통계량도 확률 변수이다

확률 probability

  • 어떤 사건이 발생할 가능성의 정도
  • 0-1 사이의 실수로 표현
  • 불확실의 정도를 측정한다

표본공간 sample space

  • 확률실험에서 얻을 수 있는 모든 가능한 결과의 집합

사건 event

  • ’사상’과 동의어
  • 표본공간의 부분집합

경우의 수 number of cases

  • 어떤 사건이 일어날 수 있는 경우의 횟수
  • 사건 A가 발생할 확률 = 사건 A가 발생하는 경우의 수/ 발생 가능한 모든 경우의 수
    • 단, 각 경우의 발생 가능성이 동일하고 상호배타적인 경우, 두 사건의 교집합이 공집합인 경우 ⠀

      확률변수 random variable

  • 사건을 숫자로 바꿔주는 함수, 즉 발생 가능한 모든 사건들의 집합을 숫자에 대응시켜주는 함수

  • [ 예시 - 동전을 두 번 던질 때, 앞면이 나오는 경우 ]

  • 동전을 두 번 던졌을 때 발생되는 사건은 HH, HT, TH, TT로 총 4가지 이다. => 사건
  • 이 4가지 사건에 대해서 ‘앞면이 몇 번이 나올 것인가’에 대해 실수값을 대응시키는 작업이 바로 확률변수를 만드는 과정이다. HH는 2, HT,TH는 1, TT는 0을 반환시킨다. => 확률변수
  • 확률변수가 2인 경우는 전체 경우의 수의 1/4, 확률변수가 1인 경우는 전체 경우의 수의 2/4 = 1/2, 확률변수가 0인 경우는 전체 경우의 수의 1/4를 차지하게 된다. => 확률
  • 사건에 대해 확률변수를 만들고, 이에 대응하는 확률을 함수로서 표현하는 것이 바로 확률함수이다. => 확률함수

  • 변수와 확률변수가 모두 수치를 취한다는 점에서 수학과 통계학이 모두 정량적인 자료를 다룬다고 할 수 있으나, 변수와 달리 확률변수가 취할 수치가 확률적이라는 점에서 통계학은 수학과 달리 불확실한 상황을 다루는 학문이다.

확률변수의 종류

  1.  이산 확률변수 discrete random variable
    • 이산 확률변수는 수집된 데이터가 셀 수 있는 특정한 값들로 구성되거나 일정한 범위로 나타나는 경우를 뜻한다.
    • 예) 주사위를 3번 던질 때 1이 몇 번 나오는가
    • 확률 질량 함수(PMF, probability mass function)로 이산 확률변수가 대응되는 확률 값들의 관계를 표현한다.
  2. 연속 확률변수continuous random variable
    • 연속 확률변수는 변수가 연속적인 숫자이거나 무한한 경우와 같이 셀 수 없는 경우를 뜻한다.
    • 예) 각 반별 학생의 평균 키
    • 확률 밀도 함수(PDF, probability density function)로 연속 확률변수의 확률값을 표현한다. - 이산 확률변수와 연속 확률변수의 가장 큰 차이점은, P(X=x)의 형태로 확률을 표현할 수 있느냐 없느냐의 차이이다.

참고 자료

업데이트:

댓글남기기