Statistics And Probability Concept1
title: 통계학과 확률의 개념 정리 1 search: true categories:
- statistics tags:
- population
- probability
-
random variable
통계학 statistics
- 자료를 모으고, 정리한 다음, 이를 분석하고 해석하는 학문
기술통계학
- 주어진 자료 자체를 분석하는 학문
- ‘주어진 자료가 어떻게 생겼는가?’는 질문에 대한 좋은 답변은 자료의 특성, 자료의 평균, 분산, 분포 모양을 알려주면 된다
추리통계학
- 주어진 자료(표본, sample)를 이용하여 모집단의 특성을 추론하는 학문
모집단 population
- 관심이 되는 전체
- 모집단은 구체적으로 알 수 없고 불확실하다고 가정한다.
- 모집단의 불확실성은 확률과 확률 분포로 표현된다.
표본 sample
- 실제 조사/관측되는 모집단의 일부
모수 parameter
- 모집단의 특성을 수치로 나타낸 것으로, 모평균과 모분산이 있다.
- 모집단은 유일하게 존재하는 반면, 표본은 여러 개 존재한다. 따라서 모집단의 한 모수에 대해 통계량은 표본에 따라 다른 수치를 취할 수 있으므로 확률변수의 함수가 된다.
통계량 statistic
- 표본의 특성을 수치로 나타낸 것
- 가상 표본의 함수로 표본평균과 표본분산이 있다.
- 여기서 표본은 모집단의 일부이자 확률 변수이다, 따라서 통계량도 확률 변수이다
⠀
확률 probability
- 어떤 사건이 발생할 가능성의 정도
- 0-1 사이의 실수로 표현
- 불확실의 정도를 측정한다
표본공간 sample space
- 확률실험에서 얻을 수 있는 모든 가능한 결과의 집합
사건 event
- ’사상’과 동의어
- 표본공간의 부분집합
경우의 수 number of cases
- 어떤 사건이 일어날 수 있는 경우의 횟수
- 사건 A가 발생할 확률 = 사건 A가 발생하는 경우의 수/ 발생 가능한 모든 경우의 수
- 단, 각 경우의 발생 가능성이 동일하고 상호배타적인 경우, 두 사건의 교집합이 공집합인 경우
⠀
확률변수 random variable
- 단, 각 경우의 발생 가능성이 동일하고 상호배타적인 경우, 두 사건의 교집합이 공집합인 경우
⠀
-
사건을 숫자로 바꿔주는 함수, 즉 발생 가능한 모든 사건들의 집합을 숫자에 대응시켜주는 함수
- [ 예시 - 동전을 두 번 던질 때, 앞면이 나오는 경우 ]
- 동전을 두 번 던졌을 때 발생되는 사건은 HH, HT, TH, TT로 총 4가지 이다. => 사건
- 이 4가지 사건에 대해서 ‘앞면이 몇 번이 나올 것인가’에 대해 실수값을 대응시키는 작업이 바로 확률변수를 만드는 과정이다. HH는 2, HT,TH는 1, TT는 0을 반환시킨다. => 확률변수
- 확률변수가 2인 경우는 전체 경우의 수의 1/4, 확률변수가 1인 경우는 전체 경우의 수의 2/4 = 1/2, 확률변수가 0인 경우는 전체 경우의 수의 1/4를 차지하게 된다. => 확률
-
사건에 대해 확률변수를 만들고, 이에 대응하는 확률을 함수로서 표현하는 것이 바로 확률함수이다. => 확률함수
- 변수와 확률변수가 모두 수치를 취한다는 점에서 수학과 통계학이 모두 정량적인 자료를 다룬다고 할 수 있으나, 변수와 달리 확률변수가 취할 수치가 확률적이라는 점에서 통계학은 수학과 달리 불확실한 상황을 다루는 학문이다.
확률변수의 종류
- 이산 확률변수 discrete random variable
- 이산 확률변수는 수집된 데이터가 셀 수 있는 특정한 값들로 구성되거나 일정한 범위로 나타나는 경우를 뜻한다.
- 예) 주사위를 3번 던질 때 1이 몇 번 나오는가
- 확률 질량 함수(PMF, probability mass function)로 이산 확률변수가 대응되는 확률 값들의 관계를 표현한다.
- 연속 확률변수continuous random variable
- 연속 확률변수는 변수가 연속적인 숫자이거나 무한한 경우와 같이 셀 수 없는 경우를 뜻한다.
- 예) 각 반별 학생의 평균 키
- 확률 밀도 함수(PDF, probability density function)로 연속 확률변수의 확률값을 표현한다. - 이산 확률변수와 연속 확률변수의 가장 큰 차이점은, P(X=x)의 형태로 확률을 표현할 수 있느냐 없느냐의 차이이다.
참고 자료
-
[통계학: 이해와 응용 유극렬 - 교보문고](https://product.kyobobook.co.kr/detail/S000000609699) - https://www.youtube.com/watch?v=JjX4EPhfUps
- [기초통계] 확률변수와 확률함수의 관계, 이산 확률변수 vs 연속 확률변수
- 통계학의개념및제문제 - 한국방송통신대학교 출판문화원
댓글남기기