1. 대표값
자료의 특성을 나타낼 수 있는 대표성을 띠는 수치
2. 기초통계량
1) 중심경향성(Central Tendency) : 데이터 분포의 중심을 보여주는 값, 중심에 얼마나 몰려 있는가?
- 최빈값 (Mode) : 가장 빈번하게 나타나는 값, 특히 범주형 자료에서 대표값으로 최빈값을 주로 사용
- 중앙값 (Median) : 자료를 크기 순으로 나여했을 때 가운데 위치하는 값, 순서형 자료의 대표값으로 적합하며 이상치에 크게 영향받지 않음
- 산술 평균 (Arithmetic Mean, Mean) : 자료의 값을 모두 더해서 자료의 수로 나눈 값, 주로 연속형 자료에 사용하며 이상치에 영향을 크게 받을 수 있음
- 가중 평균 (Weighted Mean) : 자료의 중요도에 따라 가중치 부여한 평균
- 기하 평균 (Geometric Mean) : 성장률 등 이전 시점에 대한 비율에 대한 평균을 구할 때 유용 (ex. 주가 상승률)
2) 퍼짐정도 : 자료가 얼마나 흩어져있고 얼마나 모여있는지 (분산, 표준편차, IQR)
- 분산 (Variance) : 편차 제곱의 합을 자료의 수로 나눈 값, 편차 제곱의 평균
- 표준편차 (Standard Deviation) : 분산을 제곱근한 값
- 범위 (Range) : 최대값 - 최소값, 데이터의 분포 폭 확인 가능
장점 : 계산이 쉽고 해석이 용이함
단점 : 범위 내의 관측값 분포에 대한 정보를 알 수 없음, 극단치가 미치는 영향이 매우 큼
- IQR (InterQuartile Range) : 제3사분위수 - 제1사분위수, 한쪽으로 치우친 분포의 퍼짐 정도를 확인할 때 주로 사용
3) 왜도 : 분포의 좌우 비대칭성 정도
4) 첨도 : 분포의 뾰족한 정도