summ의 블로그

통계학개론 기본 용어 정리 본문

통계학개론

통계학개론 기본 용어 정리

summ._ 2023. 6. 30. 22:21

통계학의 유형 / 자료의 유형 / 대푯값

 

 

사회가 점점 발전하면서, 우리가 모든 정보를 정확하게 얻기는 어려워진다. 따라서 한정된 자료를 갖고 추정하는 행동이 필요하다. 이때 통계학이 필요하게 되는 것이다.

 

 

통계학이란? 

 

우리가 관심이 있는 집단에 대하여 자료를 수집하고, 정리하고 요약을 토대로 판단을 내리는 학문이다.  

 

이러한 통계학은 크게 기술통계학, 추측통계학으로 구분된다. 

 

기술통계학과 추측통계학 

 

기술통계학: 관측된 자료를 연구목적에 적합하게 정리하고 요약하는 등의 자료 처리, 자료의 기술 영역에 속하는 통계학  

 

추측통계학: 모집단에서 추출된 표본의 정보를 토대로 모수를 추정하고, 합리적인 의사결정을 하는 영역에 속하는 통계학 

 

 

이때 사용하는 자료의 유형을 살펴보자면, 

범주형, 수치형으로 구분된다. 

 

 

범주형 자료와 수치형 자료 

 

범주형(질적) 자료: 범주 중 하나의 값을 가지는 자료이다.  

범주형 자료는 또한 명목형 자료와 수치형 자료로 구분된다. 

 

명목형 자료  범주들 사이에 순서가 없는 자료 
수치형 자료  범주들 사이에 순서가 있는 자료 

 

 

수치형(양적) 자료: 자료의 값이 숫자로써 기능을 하는 자료이다. 

수치형 자료는 또한 연속형 자료와 이산형 자료로 구분된다. 

 

연속형 자료 범위가 구간으로 정해지는 자료
이산형 자료  범위가 유한개 혹은 셀 수 없는 무한개인 자료 

 

 

 

기본 용어 정리 

 

모집단: 모든 자료들의 전체 집합 

모평균: 모집단의 평균  μ (뮤)

모분산: 모집단의 분산 σ^

 

표본: 모집단에서 추출된 일부이며, 모집단의 부분집합

표본평균: 표본의 평균 ¯X¯ (엑스바)

표본분산: 표본의 분산 S^2

 

모수: 모집단의 특성을 나타내는 값으로 모평균, 모분산, 모비율 등이 속한다.

(표본) 통계량: 표본의 특성을 나타내는 양으로 표본평균, 표본분산 등이 속한다. 

 

대푯값

 

수치형 자료 중 자료의 특징을 나타낼 수 있는 대푯값에는 모평균, 표본평균, 중앙값, 절삭평균 등이 있다. 

 

하나씩 살펴보자면,

 

 

모평균

모평균 (μ) 은 자료의 전체를 알고 있을 때 (전수조사) 자료의 평균을 낸 것이다. 

 

표본평균

표본평균은 자료의 일부분인 표본을 얻어 관측한 순서대로 나열하고, 평균을 구한 값이다. 

이때, 관측값에 이상치가 존재한다면 자료의 값이 예측과는 다르게 나타날 가능성이 높다. 

 

 

 

중앙값

따라서 우리는 중앙값을 사용할 수 있는데

 

중앙값은 표본을 관측한 순서대로 나열하고, 양쪽 끝 값을 제거해 나가면서 마지막 남은 값을 중앙값으로 결정하는 것이다. 

수식으로는

그러나 중앙값은 자료의 정보를 충분히 담지 못한다는 한계가 있다.

 

 

 

 

이러한 표본평균과 중앙값의 단점을 보완하기 위해 절삭평균을 사용할 수 있다. 

 

절삭평균

절삭평균은 극단치(이상치)가 존재하는 자료에서 유용하게 작용한다.

순서대로 정리하자면,

 

1. 자료에서 제외할 일정 부분을 비율로 정하고

2. 자료에서 비율에 해당하는 자료들을 상위, 하위 모두에서 제거한 후

3. 남은 자료들을 갖고 평균을 구하는 것이다. 

 

 

 

 

/* 틀린것이 있다면, 댓글을 남겨주세요

출처: 제 4판 통계학입문 [이해와 응용] 

*/