(100)통계란 정확히 무엇인가요?(고3수준에 한해서)

(100)통계란 정확히 무엇인가요?(고3수준에 한해서)

작성일 2016.07.27댓글 1건
    게시물 수정 , 삭제는 로그인 필요

안녕하세요.

고3 확통개념을 공부하면서 몇가지 의문들이 생겨서 질문드립니다.

 

1.먼저 확률과 통계단원은 크게 경우의 수, 확률, 통계로 나뉘어져 있습니다.

경우의수랑 확률 파트에서는 '경우의 수' 와 '확률'이란 단어 자체의 개념을 정의해주는데

통계파트에서는 '통계'란 무엇인지에 대해 정확히 정의해주지 않고 바로 이산확률변수,연속확률변수 등등 의 개념을 알려주더군요. 그렇다면  이산확률변수나 이항분포,연속확률변수나 정규분포가 아예 다 통계라는 뜻인가요??아니면 통계하는데 필요한 계산공식인가요?

 통계의 정확한 뜻은 뭐고, 이항분포같은 개념과 통계가 어떤 관련이 있는건가요??

 

2.확률과 통계는 어떤 관계가 있는건가요? 확률을 통해 통계를 구하는 건가요? 둘은 포함관계에 있는건가요? 특히 통계에서 이항분포 개념이 가장 이해가 안됐습니다. 이항분포는 P(X=x)에 확률 개념에 나오는 독립시행 확률을 넣고 또 그걸 확률화한건가요? 그럼 확률을 확률화시키는게 통계인건가요??

 

 제가 무슨말을 하는지 하는건지 사실 저도 잘 모르겠습니다ㅠㅜㅠㅜ 헷갈리고 답답하네요. 답변해주시면 감사하겠습니다!



profile_image 익명 작성일 -

1. 제가 통계 전공은 아니므로, 상식으로서 알고 있는 수준에서 답변해보겠습니다.

통계는 쉽기 말해서 자료를 분석하고 이를 통해 추론 및 예측을 하는 분야입니다. 확률은 통계의 중요한 도구 중 하나이지요. 즉 우리가 데이터로부터 알아내고 싶은 것을 확률론의 언어를 통해 표현하고 다룰 수 있다는 것이지요. 예컨대 통계적 모델을 세우고, 통계의 이론들을 이용해 그 모델의 값들을 추정하거나 모델 자체를 검증해볼 수도 있습니다. (그러나 확률이 통계의 언어라는 것은, 반대로 말하면 확률이 굳이 통계에만 쓰일 필요가 없다는 뜻도 됩니다. 같은 언어로도 소설을 쓸 수도 있고 시를 적을 수도 있고 논문을 쓸 수도 있듯이, 확률론으로 통계만 할 필요는 없습니다. 순수수학으로서의 확률론도 매우 활발하게 연구되고 있으며, 과학, 경제학 등 여러 분야에서도 확률론이 직접적으로 쓰이고 있지요.)

이런 예를 생각해봅시다. 식품학자 철수가 전국의 짜장면 값이 어떻게 분포되어있는지 알고 싶다고 합시다. 전국을 뒤지며 모든 중국집을 다 훑어볼 수 있다면 좋겠지만, 그러한 과정 - 즉 전수조사는 - 매우 시간과 돈을 요하는 작업입니다. 돈과 시간을 절약하기 위해 철수는 통계적 기법을 이용하기로 합니다.

우선 철수는 짜장면 값들이 정규분포를 이룬다고 가정하였습니다. 그 다음 전국에서 무작위로 뽑힌 500개의 중국집의 짜장면 값을 기록하였습니다. 통계학에서는 이 관찰된 값들로부터 '짜장면 값들이 이루는 정규분포'의 평균과 분산을 추정하는 방법을 철수한테 제시해줍니다. (그리고 우리가 '전국의 짜장면 값들이 어떻게 분포되어 있는가'라는 물음에 답하기 위해 확률적 개념인 '정규분포'라는 녀석을 사용했음도 주목해보세요.)

관찰 결과를 분석하다 보니, 철수는 이상한 점을 발견합니다. 짜장면 값들이 특정 몇몇 값들에 집중되어 있었던 것이지요. 이는 분명히 정규분포에서 나타나지 않는 현상이므로, 최초의 가정이 틀렸을 수 있다는 아주 강력한 증거입니다. 철수는 원인에 대해 고민해보다, 지역별로 평균값에 차이가 있을 수 있다는 가설을 추가로 새웁니다. 이때에도 통계학은 이 가설이 얼마나 올바른 가설일지를 실제로 검증하는 방법 역시 제시해줍니다.



2. 분포란 일종의 템플릿입니다. 같은 무작위한 시행도 다 똑같은 게 아니라, 어떤 시행들은 두 가지 값만 갖고, 어떤 시행들은 연속적인 값들을 갖지만 한 지점에 값들이 집중되고, 어떤 시행은 이런저런 값들에 골고루 집중되기도 하고... 이렇게 다양한 '무작위함'들이 가능하지요. 분포는 이처럼 '어떤 방식으로 무작위한가'를 표현하기 위한 개념입니다. 통계학에서는 이 개념을 이용해 실제 데이터들을 모델링할 수 있지요.

한편 통계에서 정규분포, 이항분포 등이 중요한 이유는 이들이 가장 일반적인 분포들이기 때문입니다.

(1) 우선 정규분포가 중요한 이유는, 똑같은 분포를 가진 독립시행을 무수히 반복하였을 때 관찰 결과들이 사실상 정규분포를 이루기 때문입니다. 이는 꽤나 놀라운 결과입니다. 왜냐하면 원래 분포가 뭔지 묻고 따지지도 않고 결국에는 정규분포와 가까워진다는 뜻이기 때문입니다.

우선 큰 수의 법칙으로부터, 우리는 충분히 많은 횟수의 독립시행들의 결과를 평균내면 사실상 모평균 값을 얻음을 알고 있습니다. 예컨대 공정한 동전을 한 100만번 쯤 던지면 앞면이 나온 횟수의 비율이 사실상 1/2 가 될것이라는 것이죠. 그러나 실제 결과가 항상 50만번이진 않을 것이며, 약간의 에누리가 항상 생길 것입니다. 정규분포는 바로 이 부분을 설명해주는 분포입니다. (고상하게 말하자면, 정규분포는 동일한 분포를 따르는 독립시행 결과들의 fluctuation을 기술하는 분포입니다.)

(2) 이항분포는 결과가 Yes/No 인 독립시행을 했을 때 Yes의 개수를 세는 분포입니다. 위에서 언급한 동전의 경우에도 '앞면이 나왔는가?' 하는 질문에 Yes인 시행을 셈하면 이항분포가 되겠지요.

이항분포는 태생적으로 독립시행과 아주 밀접한 관련이 있습니다. 예컨대 한국 20대 여성들의 키가 정규분포를 이룬다고 가정합시다. 만약 우리의 질문이 '20대 여성의 평균 키는 얼마인가?'라고 물으면, 이항분포가 낄 여지가 없습니다. 각 사람들의 키는 수로 주어지니까요. 그런데 여기서 질문을 바꿔 '20대 여성 5명을 무작위로 뽑았을 때 모두 키가 160 이상일 확률은?' 이라고 물어봅시다. 이제 각각의 여성들의 키가 160 이상이냐 아니냐 하는 Yes/No 질문으로 바뀌었으니, 짜잔 하고 이항분포가 등장하게 되지요. 시행의 결과에 대고 다시 Yes/No질문을 던질 수 있는 한, 이항분포는 어디서나 호시탐탐 끼어 들 기회를 노리고 있습니다.

(100)통계란 정확히 무엇인가요?(고3수...

... 고3 확통개념을 공부하면서 몇가지 의문들이 생겨서... 통계파트에서는 '통계'란 무엇인지에 대해 정확히... 제가 통계 전공은 아니므로, 상식으로서 알고 있는 수준에서...

불교 질문

... 반야심경은 정확히 무슨 내용이며 불교의 궁극적인 목적은 무엇인가요 (부처를 찬양하는 내용인가요) 2.불교에서... 산산수수의 지능을 보면 교사들의 지적 수준이 어느...

고3 일본유학

... 못이겨 고3을 지내고 있는 중입니다.(ㅠㅠ) 우선 지금 제 수준은 모의고사 기준으로(확률과 통계 선택과목) 국어... 점수컷을 정확히 파악하고 있습니다. ■ 특별히 아무...

수능 백분위 100

... 미적수준으로 나와서 둘이 맞추어지는 경우도 있었는데(2006년 9월 모의고사---140<141, 2008수능--이때는 미적1컷이 100이라 오히려 확통틀린경우가 이득, 2023년 7월 고3...