본문 바로가기
이론 노트/기초 통계

도수분포표와 히스토그램 작성 방법 (데이터 특징 요약하기)

by 바크롱 2021. 11. 16.

1. 데이터 특징 요약의 두 가지 방법: 그래프와 통계량

데이터 자체는 단순한 숫자의 나열일 뿐입니다. 단순하게 데이터만 가지고 있는 경우 이를 아무리 뚫어져라 본다고 해서 데이터가 가지고 있는 정보나 의미를 파악하기는 어렵습니다.

 

데이터의 특징을 알기 위해서는 데이터 속에서 반복되는 특징과 데이터 전체의 분포를 파악할 줄 아는 능력이 필요합니다.

 

따라서 데이터를 어떤 기준 하에 의미 있는 정보만 추출하는 작업이 필요하고, 이를 위해서는 1)그래프를 사용하거나 2)데이터를 대표하는 숫자를 계산하여 데이터를 축약할 수 있습니다.

 

 

2. 도수분포표 만들기

데이터 요약을 위해서는 도수분포표 작성이 필요합니다. 그리고 도수 분포표 작성 단계는 아래와 같은 순서로 진행됩니다.

 

STEP1. 최댓값, 최솟값 계산

 

STEP2. 최댓값, 최솟값을 포함하여 데이터를 특정 범위(계급)으로 나눠준다.

 

STEP3. 각 계급을 대표하는 수치(계급값)를 정한다.

 

STEP4. 각 계급에 포함된 데이터 개수(도수)를 센다.

 

STEP5. 각 계급의 도수가 전체에서 차지하는 비율(상대도수)을 계산한다.

 

STEP6. 특정 계급까지의 도수를 모두 합한다. (누적도수)

 

아래와 같은 데이터가 있다라고 가정해 봤을 때, 이를 활용하여 도수 분포표 작성 순서에 따라 도수 분포표를 작성해본다면 다음과 같이 작성할 수 있습니다.

전체 데이터

'남학생 50명 키' 데이터가 있다고 가정했을 때 도수분포표 작성 순서를 따라해보면,

 

1. 최솟값(158), 최댓값(191) 선정

 

2. 데이터를 5단위로 구간화 해준다. (156~160, 161~165 …)

 

3. 계급값은 각 구간의 중앙값으로 선정해준다.

 

4. 도수, 상대도수, 누적도수를 계산해준다.

 

의 순서로 도수 분포표를 작성할 수 있으며 이를 작성한 결과는 아래와 같습니다.

도수분포표 작성 예시

작성한 도수분포표를 통해서 정리 되지 않은 기존 데이터에선 얻을 수 없는 정보를 알 수 있게 됩니다.

 

1. 남학생의 키는 171~175 사이에 가장 많이 분포한다.

2. 남학생의 키는 전체적으로 대칭적인 형태로 분포한다. 

 

전체 데이터를 통해서는 데이터가 가진 의미나 정보를 해석할 수 없었지만 데이터를 요약함으로써 우리가 가진 데이터에 대한 요점을 전달할 수 있게 됩니다.

 

 

3. 히스토그램 만들기

도수분포표를 통해서 정보를 요약할 수 있지만, 이를 그래프로 나타낸다면 더욱 효과적으로 데이터의 의미를 전달할 수 있게 됩니다. 

 

도수분포표를 활용하여 만든 막대그래프를 히스토그램이라고 하며 위 데이터를 히스토그램으로 표현해보면 아래와 같습니다.

○○대학교 남학생 50명 히스토그램

히스토그램을 작성하고 나면 앞의 도수분포표에서 확인한 결과와 같은 결과를 보다 확실하고 직관적으로 확인할 수 있습니다.

 

데이터를 통해 알고자 하는 것은 '데이터에 대한 모든 것'이 아니라 '데이터가 가지고 있는 특징' 임을 항상 염두에 두어야 합니다.

 

따라서 보유하고 있는 데이터에 대한 의미 파악을 위해서는 데이터를 어떻게 효과적으로 요약하고 요약한 내용을 해석할 것인지에 대해 많은 고민이 필요하다고 할 수 있습니다.

 


참고 문헌

- 고지마 히로유키, 『세상에서 가장 쉬운 통계학 입문』, 박주영 옮김, 지상사(2009), p.24~34

댓글