■ 변동성(variability)의 측정
- 중심위치의 측정은 자료의 분포(distribution), 즉 변수값들이 평균(중심위치)를 중심으로 얼마만큼 산포되는지에 대해서는 어떤 특성이나 정보를 제공하지 못함.
■ 변동성의 측정: 범위(range)
- 범위는 변동성을 측정하는 가장 간단하고 단순한 방법임.
범위 = 가장 큰 변수값 – 가장 작은 변수값
- 예)
• 자료(1): Data: {4, 4, 4, 4, 50}, 범위: 50-4 = 46
• 자료(2): Data: {4, 8, 15, 24, 39, 50} 범위 = (50-4) = 46
• 두 자료는 같은 범위의 값을 가지나 두 자료의 분포는 매우 다른 형태를 띰.
- 장점: 아주 쉽게 산출할 수 있음.
- 단점: 두 개(가장 큰 수와 가장 작은 수)의 변수값 사이에 있는 다른 변수 값들의 변동성 정도에 대한 정보를 제공하지 못하므로, 두 변수값에 의한 변동성이 아닌 모든 변수값들에 대한 변동성 측정이 필요함.
■ 변동성의 측정: 평균편차(Mean Deviation)
- 평균편차
- 예) 어느 커피점에서 하루에 판매되는 아이스 아메리카노의 수를 조사한 결과 지난 5일간 20, 40, 50, 60, 80잔이었다고 하자. 이 표본자료에서 아이스 아메리카노 수의 평균편차값은?
■ 변동성의 측정: 분산(variance)과 표준편차(standard deviation)
- 분산과 표준편차는 변동성 측정 이외에 통계적 추정과정(statistical inference procedures)에서 중요한 역할을 함.
- 모분산(모집단 분산: population variance)은 𝜎² (Greek letter “sigma” squared)로 표기
- 표본분산(sample variance)은 𝑆² (“S” squared)로 표기
- 모분산 값은
• 𝜇: 모평균
• 𝑁: 모집단 크기
- 표본분산 값은
• X-bar: 표본평균
• n: 표본크기
• 주의: 분모값은 표본크기(n)-1
- 평균값을 따로 구하지 않고 표본분산값을 구하는 방법
■ 표준편차(standard deviation)
- 표준편차는 분산값에 root를 취한 값임.
- 모집단의 표준편차(population standard deviation)
- 표본의 표준편차(sample standard deviation)
■ 표준편차의 해석
- 어느 골프 제조업자가 새 골프 클럽을 만들어 현재의 골프 클럽과 비교하기 위해 거리를 실험한 결과 다음과 같은 표를 얻었다고 해보자.
• 새 클럽의 표준편차가 작게 나타남.
• 새 클럽이 현재의 클럽보다 거리 변동에서 더 일관성 있음을 알 수 있음.
■ 표준편차의 응용: 경험적 법칙(empirical rule)
- 표준편차는 서로 다른 분포 형태를 가진 자료들의 변동성을 비교하는 데 이용되며, 아울러 자료의 분포 특성을 파악하는 데 사용됨.
- 자료의 분포 형태를 나타내는 히스토그램이 대칭적 형태(bell shape)일 경우, 다음과 같은 경험적 법칙을 적용할 수 있음.
• (1) 모든 변수값들 중 약 68%가 평균±표준편차의 범위 내에 존재함.
• (2) 모든 변수값들 중 약 95%가 평균±(2*표준편차)의 범위 내에 존재함.
• (3) 모든 변수값들 중 약 99.7%가 평균±(3*표준편차)의 범위 내에 존재함.
■ 체비쇼프의 정리(Chebysheff’s Theorem)
- 주어진 자료의 분포가 비-대칭적 형태인 경우(종 모양의 형태가 아닌 경우)에 체비쇼프의 정리를 적용할 수 있음.
- 주어진 자료의 모든 변수값들의 100×[1-(1/𝑘²)]%가 적어도 [mean±(k*SD)] 범위 내에 존재함.
• 예) k=2일 경우, 모든 변수값들의 75%[= 1-(1/2²)]가 [mean±(2*SD)] 범위 내에 존재함.
(2025.01.07.)