이항분포

이항분포

[ Binomial Distribution , 二項分布 ]

요약 일정한 확률 p를 가진 독립시행을 n번 반복할 때의 확률분포.

주사위 한 개를 던져 1이 나올 확률은 1/6이다. 주사위 한 개를 던지는 시행을 60번 했을 때 그 중 1의 눈이 나오는 횟수를 확률변수 X라 하자. 주사위를 던지는 것처럼 일정한 확률을 가진 독립시행을 반복할 때 확률변수 X가 따르는 분포를 이항분포라 한다. 이항분포(Binomial Distribution)는 첫글자 ‘B’를 따서 ‘B(n,p)’로 표기하는데, n은 시행횟수를 말하며 p는 매 시행마다의 확률을 의미한다. 여기서는 60회, 확률은 1/6이므로 B(60, 1/6)이다.

이항분포 B(n,p)의 기댓값 E(X)는 시행횟수에 확률을 곱한 값 n·p가 된다. 위 예시에서 60회 중 1의 눈이 나올 확률이 1/6이므로, 60번 중 10번 정도는 1이 나오는 것을 기대할 수 있다. 즉, 10(=60x1/6)이 기댓값이 된다.

이항분포의 확률

전체 사건의 확률 1에서 확률 p를 제외한 값을 q=1-p라 할 때, 이항분포 B(n,p)의 분산은 n·p·q이며, 표준편차는 √npq가 된다. 이항분포는 독립시행인 사건의 확률변수 분포이기 때문에 이항분포에서 확률변수 X가 취하는 확률P(X=x)는 독립시행의 확률에서 n번 중 사건이 x번 일어날 확률 nCxpxqn-x과 같다. 위의 예에서 주사위를 던진 60회 중 1의 눈이 x회 나올 확률 P(X=x)는 60Cx(1/6)x(5/6)60-x이다.  이를 이용해 이산확률분포표를 나타내면 다음과 같다.

X

0

1

2

···

59

60

합계

P

60C0(5/6)60

60C1(1/6)1(5/6)59

60C2(1/6)2(5/6)58

···

60C59(1/6)59(5/6)1

60C60(1/6)60

1

 >

확률의 합이 1이 되므로, P가 취하는 값을 모두 더하면 60C0(5/6)60 + 60C1(1/6)1(5/6)59 + ··· + 60C59(1/6)59(5/6)1 + 60C60(1/6)60=1 이 된다. 이 좌변은 이항정리에 의해 (1/6+5/6)60을 전개한 것이다. (1/6+5/6)60=160=1이므로 확률의 합은 1이 참임을 알 수 있다. 이항분포라는 단어의 ‘이항’은 이항정리에서 쓰인 ‘이항’과 같은 단어로 이는 두 개의 항인 p와 q를 의미한다. 즉, 이항분포의 확률은 (p+q)n의 전개식의 각 항과 같다.

이항분포와 정규분포

이항분포 B(n,p)에서 p가 0이나 1에 가깝지 않고 n이 충분히 크면 이항분포는 정규분포에 가까워지며 그래프는 좌우대칭인 산 모양 곡선이 된다. 이때 정규분포 N(m,σ2)에서의 평균 m=np, 분산 σ2=npq이다. 즉, 이러한 이항분포 B(n,p)는 정규분포 N(np,npq)을 따른다. 사실 이항분포는 변수들이 서로 떨어져있는 이산확률분포의 일종이며 정규분포는 변수들이 연속되어있는 연속확률분포의 하나이나, n이 충분히 크면 연속확률분포로 취급될 수 있다는 것을 의미한다.

어떤 학생이 문제의 정답을 맞출 확률이 항상 2/5이고 1,000문제가 들어있는 문제집을 풀었다고 하자. 독립시행이므로 n=1000, p=2/5가 된다. 정답을 맟춘 문제의 개수를 확률변수 X라 할 때, X는 이항분포 B(1000, 2/5)을 따른다. 이항분포의 평균은 np, 분산이 npq이므로 평균은 1000x2/5=400, 분산은 1000x2/5x3/5=240이다. n이 충분히 크므로 이항분포는 정규분포를 따르게되어, 이 확률변수 X는 정규분포 N(400, 240)을 따른다고 할 수 있다.