정규분포

정규분포

[ Normal Distribution , 正規分布 ]

요약 도수분포곡선이 평균값을 중심으로 하여 좌우대칭인 종 모양을 이루는 것으로, 정규분포곡선은 평균에서 좌우로 멀어질수록 x축에 무한히 가까워지는 종 모양을 이룬다.

자연현상에서 비롯된 수많은 결과들은 그 값이 평균에 집중되어 있고 평균에서 멀어질 수록 도수가 작아지는 현상을 보인다. 예를 들어 우리나라 특정 연령대에 속하는 여성들의 키(신장)를 조사하면 대부분이 145cm~175cm 정도에 해당하고 그 중에서도 대다수가 155cm~170cm 정도 구간에 집중적으로 몰려있으며, 아주 큰 키인 185cm나 작은 키인 135cm 등에 해당하는 사람은 매우 적은 식이다. 자연현상뿐 아니라 시험성적과 같은 분포 또한 평균에 대다수가 몰려있고 매우 고득점을 하거나 매우 저득점을 한 사람의 수는 적은 것이 일반적이다. 이와 같은 분포를 정규분포라 하는데, 이러한 특징을 반영한 정규분포의 도수분포곡선이 정규분포의 정의를 잘 나타내준다.

정규분포 본문 이미지 1

정규분포의 도수분포곡선은 평균 m을 중심으로 좌우대칭인 종 모양을 이룬다. 이는 평균과 평균 근처에 많은 도수(확률)가 몰려있고 평균에서 멀어질수록 도수도 급격히 적어지는 것을 의미한다. 정규분포의 도수분포곡선은 평균에서 좌우로 멀어질수록 x축에 무한히 가까워지는 점근선이다. 또한 확률의 합은 1이므로 도수분포곡선과 x축 사이의 넓이는 1이 된다.

정규분포를 결정하는 중요한 두 개의 값은 평균 m과 표준편차 σ이다. 정규분포(Normal Distribution)의 영어 첫글자 N을 따서 평균이 m이고 표준편차가 σ인 정규분포를 N(m,σ²)로 표시한다.

만약 어떤 두 정규분포가 표준편차 σ의 값이 같고 평균만 서로 다르다면 두 정규분포의 도수분포곡선은 같은 모양을 가지게 된다. 다만 평균값에 따라 곡선의 종 모양의 중심 위치가 결정되기 때문에 같은 모양의 곡선이 위치만 달라지게 된다. 동일한 표준편차 값을 가지며 평균이 각각 m, m0 (m<m0)인 두 정규분포의 도수분포곡선은 다음과 같게 된다.

정규분포 본문 이미지 2

반대로 평균은 동일하지만 표준편차의 값이 다른 두 정규분포는 어떻게 될까? 표준편차는 자료가 얼마나 분산되어 있는지를 나타내는 산포도의 일종이다. 즉 표준편차 값이 클수록 자료는 평균으로부터 더 많이 분산되어 퍼져 있고 표준편차 값이 작을수록 자료는 평균에 몰려있다. 그러므로 동일한 평균값을 가지면서 표준편차가 각각 σ, σ0(σ<σ0)인 두 정규분포의 도수분포곡선은 다음과 같다.

정규분포 본문 이미지 3

어느 고등학교의 중간고사 성적이 국어시험은 N(80,5²)인 정규분포를 따르고 영어시험은 N(70,1²)인 정규분포를 따른다고 하자. 국어시험에서 90점을 받고 영어시험에서 73점을 받았을 때 어떤 과목의 성적이 더 좋은것일까? 표면상의 성적은 국어시험의 점수가 더 높아보이지만 시험의 난이도에 따라 등수는 달라질 수 있다.

정규분포에서는 내가 알고자 하는 값이 ‘평균으로부터 몇 개의 표준편차만큼 떨어져 있는가’가 중요하다. 표준편차 하나를 한 개라고 생각해보자. 국어시험은 표준편차가 5점이므로 여기서는 5점이 표준편차 한 개가 된다. 국어시험의 성적 90점은 평균인 80점으로부터 10점 높으므로 두 개(10=5x2)만큼 떨어져있는 셈이다. 수식으로 표현한다면 국어시험 성적은 (평균)+(표준편차 2개)=m+2σ가 된다. 영어시험은 표준편차가 1점이므로 여기서는 1점이 표준편차 한 개이다. 영어시험의 성적인 73점은 평균 70점에서 세 개의 표준편차만큼 떨어져 있다. 수식으로 표기하면 m+3σ이다.

국어시험은 평균보다 두 개의 표준편차만큼 성적이 높고(m+2σ) 영어시험은 평균보다 세 개의 표준편차만큼 성적이 높다(m+3σ). 정규분포에서는 오직 표준편차의 개수만을 중시한다. 도수분포곡선을 보면 알 수 있듯이 m+3σ의 값을 가진 영어시험 성적이 더 상위 등수임을 알 수 있다.

정규분포 본문 이미지 4

표준편차 개수에 따른 자료값의 정확한 위치는 정규분포표를 통해 알 수 있다. 해당하는 m+kσ값에 따라, 즉 k값에 따라 평균 m과 m+kσ 사이의 도수분포곡선 아래의 넓이가 어떻게 되는지 미리 계산해 둔 표이다.