■ 통계학이란?
- 통계학(Statistics): 연구 대상이 되는 자료(data)들을 수집하고 이를 정리하여 분석하고 해석함으로써 더 합리적이고 효율적인 결론(정보)을 도출하기 위한 하나의 과학
• 통계학은 자료(data)로부터 정보(information)를 찾아내는 수단임.
• 통계학의 목적은 자료의 불확실성을 제거하여 합리적이고 과학적인 결론을 도출하는 것임.
■ 기술적 통계학과 추론적 통계학
- 통계학의 형태는 기술적 통계학과 추론적 통계학으로 나뉨.
- 기술적 통계학(Descriptive Statistics)
• 연구 대상의 자료를 수집하고 도표, 그림 또는 수치 등을 이용하여 자료에 대한 특성이나 정보를 쉽게 파악할 수 있도록 자료를 정리, 요약, 설명하는 방법을 다룸.
• 수치 또는 지표를 이용하는 기법: 평균값, 분산값 등의 수치를 이용하여 자료의 특성 또는 정보를 나타내는 방법
• 그래프를 이용하는 기법: 자료가 지닌 특성이나 정보를 여러 형태의 그래프를 이용하여 설명하는 방법
- 추론적(추정적) 통계학(Inferential Statistics)
• 수집된 자료(표본)에 내재된 정보/특성을 이용하여 전체 자료(모집단)에 대한 일반적인 특성/정보를 과학적으로 추정하는 방법을 다룸.
■ 기술적 통계학
- 기술적 통계학은 자료(data)의 수집, 정리, 요약하여 자료의 특성/정보를 나타내는 방법을 다룸.
- 그래프 또는 도표를 이용하는 기법: 비교적 쉽게 자료의 특성이나 정보를 파악할 수 있는 방법
• 예) 원 그래프(pie chart), 선 그래프(line graph), 막대 그래프(bar chart), 히스토그램(histogram), 산포도(scatter plot) 등
- 수치 또는 지표를 이용하여 자료의 특성를 파악하는 기법
• 자료값들의 위치(location) 또는 집중화를 측정하는 방법: 평균값(mean), 중앙값(median), 최빈값(mode)
• 자료값들의 변동성(variability) 또는 산포경향을 측정하는 방법: 범위(range), 분산(variance), 표준편차(standard deviation)
■ 추정적 통계학
- 기술적 통계학은 자료의 특성을 나타내지만 이를 토대로 자료에 대한 어떤 결론이나 추정을 할 수 없다. 따라서 결론 도출이나 추정 과정을 위해 추정적 통계 기법이 필요함.
- 추정적 통계학: 표본 자료를 토대로 전체자료(모집단)의 특성을 추정하기 위한 방법을 설명함.
- 기본 요소
• (1) 모집단(population)
• (2) 표본(sample)
• (3) 통계적 추정과정(statistical inference)
■ 기초 용어: 변수와 자료
- 변수(variable): 숫자 또는 특성 등으로 표현된 값이 경우에 따라 변화되는 것
- 양적변수(quantitative variable): 숫자로 표현된 변수
• 예) 학생들의 학점, 개인별 소득, 주가 등
- 질적변수(qualitative variable): 특성, 범주 등으로 표현된 변수
• 예) 성별(남, 여), 직업(사무직, 노동직), 학력(중졸, 고졸, 대졸) 등
• 질적변수는 코드화를 통해 양적변수로 전환이 가능함.
* 상수(constant): 경우에 따라 변하지 않고 일정하게 고정되어 하나의 값만 가지는 것
- 자료(data): 관심의 대상이 되는 변수들의 관측값 또는 측정값의 집합
• 예) 2024년도 경제학과 학생들의 학점, 2020-24년의 국가별 GDP 등
■ 기초 용어: 모집단과 표본
- 모집단 (population): 연구 대상이 되는 모든 자료들의 집합
• 모집단의 특성을 나타내는 기술적 통계치: 모수(parameter)
- 표본(sample) :모집단에서 추출된 일부 자료의 집합
• 표본의 특성을 나타내는 기술적 통계치: 통계량(statistic), 모집단(Population)
- 표본은 모집단의 부분집합(subset)임.
■ 기초 용어: 통계적 추정
- 통계적 추정(statistical Inference): 표본자료를 토대로 하여 모집단 자료를 추정하거나 결과를 도출하는 일련의 과정을 의미함.
- 표본자료의 통계량(statistic)을 이용하여 모집단의 모수(parameter)를 추정하는 과정
- 통계적 추정을 하는 현실적인 이유
• 대규모 크기의 전체 모집단 자료를 직접 조사 분석하는 것은 현실적으로 불가능하며 또한 많은 시간 및 비용이 소요됨.
• 모집단의 일부 자료인 표본자료를 이용하는 것이 더 쉽고, 더 적은 시간 및 비용으로 분석이 가능하므로 표본자료를 이용하여 모집단 전체자료에 대해 추정하는 것이 바람직함.
- 통계적 추정의 문제점: 표본자료를 이용한 통계적 추정과정에서 도출된 모집단에 대한 결론이나 추정 결과가 항상 정확하지 않을 수 있음.
• 이러한 문제점을 해결하기 위해 통계적 추정 과정에 대한 신뢰성 측정(measures of reliability)이 필요함.
• 신뢰성 측정에는 신뢰수준(confidence level) 또는 유의수준(significance level)을 이용함.
■ 신뢰수준과 유의수준
- 신뢰수준(confidence level): 많은 추정과정들이 실행된 가운데 정확한 결론이나 추정결과를 나타내는 추정과정의 통계적 비율을 나타냄.
• 예) 95%의 신뢰수준: 100번의 추정과정들 중에서 적어도 95번의 추정과정들이 통계적으로 정확한 결과를 나타낸다는 것을 의미함.
- 유의수준(significance level): 여러 번의 추정과정들에서 나타난 결론들에 내재된 통계적인 오류 또는 에러의 비율을 나타냄.
• 예) 5%의 유의수준: 추정과정에서 나타난 결론들이 적어도 5% 정도의 통계적인 오류가 있으며 따라서 도출된 결론이 틀릴 수 있음을 나타냄.
(2024.12.05.)