summ의 블로그

확률변수와 확률분포 - 이산확률변수 본문

통계학개론

확률변수와 확률분포 - 이산확률변수

summ._ 2023. 7. 26. 00:26

이산확률변수 | 이산확률분포 | 이산확률분포표| 확률질량함수 | 기댓값 

 

 

 

이산확률변수의 정의 

 

앞면과 뒷면이 존재하는 동전을 연속으로 2번 던지는 실험을 한다고 하자. 

이때 동전의 표본공간은 S = { (HH), (HT), (TH), (TT) }이다.  

 

이 실험에서 우리가 뒷면이 나온 수를 변수 X 라고 정의한 뒤,

주어진 상황에서 변수 X가 가질 수 있는 수는 0, 1, 2 인 것을 확인할 수 있다.

 

  HH HT TH TT
변수 값  0 1 1 2

 

 

이렇게 확률변수가 가질 수 있는 값이 셀 수 있는 무한개, 유한개일 때 이산확률변수라고 한다. 

어렵다고 느껴진다면 우리가 >>> 정수 <<< 로 표현할 수 있는 모든 형태를 이산형이라고 생각하면 된다.

 

 

 

이산형확률변수의 확률분포

 

앞서 말한 동전 던지기 실험을 통해 이산확률변수의 확률분포를 구할 수 있다. 

실험을 완벽하게 통제하고 있다고 가정한다면, 확률변수 X가 가질 수 있는 값은 오직 0, 1, 2 이다. 

 

따라서 확률변수 X가 실수 x를 값으로 가질 확률을 나타낼 수 있다. 

 

우선, X=0 인 확률부터 구해보면 동전을 두 번 던져서 모두 앞면인 (HH) 가 나오는 사건뿐이다. 

X=1 일 확률은 동전을 두 번 던져서 (HT), (TH) 이 나오는 두개의 사건이다.

마지막으로 X=2 일 확률은 동전을 두 번 던져서 모두 뒷면인 (TT) 이 나오는 사건이다. 

 

 

 

이를 표로 나타낸 것을 확률분포표라고 한다. 

 

x 0 1 2
P(X=x) 1/4 2/4 1/4 1

 

 

확률질량함수

 

확률분포를 표현하는 방법으로 확률질량함수가 존재한다. 

 

만약, 어떤 실험에서 나타나는 변수의 수가 많다면 우리는 표를 하나하나 그리고 앉아있을 수 없다.

따라서 확률질량함수를 이용하여 확률분포를 표현하는 것이다. 

확률질량함수를 흔히 pmf (probability mass function) 로 사용한다. 

 

동전 던지기 실험의 확률질량함수 pmf 를 구하면 다음과 같다.  

 

이것에서 알 수 있는 사실은 함수 값을 다 더했을 때 1이 나오며, 각각의 값은 모두 양의 숫자를 가지고 있다는 것이다. 

 

이로 인해 확률질량함수의 특성을 정리하면 다음과 같다. 

 

 

확률질량함수의 특성 

 

이산확률변수 X의 확률질량함수 p(x) 

1) 모든 값에 대하여 p(x) >= 0 이다.

2) p(x) 의 총합은 1이다.  

 

 

누적분포함수 

 

확률질량함수와 더불어서 우리는 누적분포함수를 구할 수 있다.

 

이름에서부터 알 수 있듯이, 

변수가 가질 수 있는 맨 처음의 값에서부터 우리가 알고자하는 값 x까지의 해당 값들을 계속하여 더하는 것이다. 

 

누적분포함수를 흔히 cdf (cumulative distribution function) 로 사용하고, F(x) 로 나타낸다. 

 

다시 동전 던지기 실험으로 돌아가 보자.

이 실험에서의 누적분포함수는 다음과 같다. 

 

x=1 에서의 누적분포함수값은 

 이다. 

 

 

누적분포함수를 그래프상에 나타내보면 오른쪽으로 증가하는 계단형태임을 알 수 있다. 

 

 

이를 통하여 확률질량함수와 누적분포함수의 관계 정의가 가능하다. 

 

 

 

기댓값 

 

이산확률변수의 기댓값은 x값과 각각에 대응하는 확률질량함수 값을 곱하여 더하면 된다. 

 

기댓값은 E(x) 라고 표기하고, 

확률분포표에서 각각의 값 위 아래 숫자들을 곱하여 더하면 된다.  

 

 

 

/* 틀린 것이 있다면, 댓글을 남겨주세요

출처: 제4판 통계학입문 [이해와 응용] 

*/