모집단의 분포 개념 정리 1
모집단의 확률분포 probabiliy distribution
확률분포
- 주사위에서 각 숫자가 나올 확률이 어떻게 분포되어 있는지 표로 나타내면 다음과 같다.
-
숫자 해당 숫자가 나올 확률 1 1/6 2 1/6 3 1/6 4 1/6 5 1/6 6 1/6 - 확률분포는 이처럼 각 확률변수가 나타날 확률이 퍼진 모양을 표 또는 그래프로 나타낸 것이다.
- 확률적 데이터에서 어떠한 값이 자주 나오고 어떠한 값이 드물게 나오는가를 나타내는 정보를 분포(distribution)라고 한다
확률질량함수 probability mass function
- 이산형 확률변수 X의 분포를 결정하는 함수
- 이산형 확률변수 X의 확률분포는 점확률(point probability)로 표현된다.
확률밀도함수 probability density function
- 연속형 확률변수 X의 분포를 결정하는 함수
- 연속형 확률변수의 확률은 오직 구간에서만 의미가 있기 대문에 점확률은 0이다.
이산형 분포 discrete distribution
.
베르누이 분포 Bernoulli
- Bernoulli trial: 상호배타적인 두 사건으로 구성되는 확률실험
이항분포 binomial
- 통계학에서는 두 가지 사건 중 한 사건을 통칭하여 성공, 다른 하나를 실패라고 부르며 사전적 의미와는 관계 없다.
- 베르누이 분포는 1회 실행할 때 성공과 실패에 대한 확률분포라면, 이항분포는 n회 실행할 때 성공횟수의 확률분포이다.
초기하분포 hypergeometric
- 비복원추출에서 N개의 모집단 중 n개를 추출할 때, k번 성공할 확률에 대한 분포이다.
- 초기하분포의 확률변수는 위와 같은 조건 하에서 성공할 횟수이다.
- 이항분포와 성공횟수가 확률변수라는 점에서 비슷하지만, 이항분포는 복원추출을 통해 매 시행이 독립적이며 같은 성공 확률을 가지지만 초기하분포는 비복원추출이기 때문에 앞선 시행이 다음 시행의 확률에 영향을 준다는 점에서 다르다.
- 예를 들어 왼손잡이와 오른손잡이가 태어날 확률이 각각 20%, 80%라고 할 때,(이는 평균으로 5명 중 꼭 1명이 나오라는 보장은 없다)
- 이항분포를 따를 경우, 갓 태어난 아이 5명 중에서 왼손잡이가 2명일 확률이라면(고정된 비율)
- 초기하분포를 따를 경우, 왼손잡이와 오른손잡이가 각각 2, 8명 있을 때, 이 10명 중 5명을 선택할 때 5명 중 왼손잡이가 2명일 확률이다.(5명을 순서대로 뽑을 때마다 확률이 달라진다)
- 초기하분포 증명: https://m.blog.naver.com/chunsa0127/222082106080
- 초기하 이름의 유래: https://hsm-edu.tistory.com/863
- 기하(geometric): ‘선’ ‘곡선’ ‘도형’에 관련된 것
- 초기하(hypergeometric): 기하급수를 넘어선다(hyper), 초기하함수가 ‘기하급수’를 포함하는 더 일반적 개념이기 때문에 붙은 이름.
포아송분포 poisson
- 단위구간(시간=10분, 1시간 등/공간= 500m, 1km 등, 즉 특정 기간 또는 영역) 내에서 어떤 사건의 발생(성공) 횟수(사건의 수)에 대한 확률분포
- 포아송 분포의 확률은 람다 λ에 의해 결정된다
- λ 람다: 단위 구간당 발생횟수를 확률변수 X라 할 때 X의 평균
- 이항분포는 일정한 시행횟수를 전제로 하지만 포아송 분포에서 사용되는 성공횟수는 일정한 시간이나 공간을 전제로 한다. 따라서 포아송 분포에서는 발생횟수의 상한이 없다.
댓글남기기