■ 기본 개념
- 변수(variable): 모집단 또는 표본 자료의 특성
• 로마자 대문자로 표기함: X, Y, Z, …
• 예) 학생들의 시험점수에 대한 자료
- 변수값(values of the variable): 변수가 가질 수 있는 가능한 모든 관측된 수치들
• 예) 각 학생의 시험점수: (0..100)
- 자료(data): 각 변수의 실제 관측된 값들의 집합
• 예) 학생들의 시험점수의 집합: {67, 74, 71, 83, 93, 55, 48}
■ 변수의 종류
- 질적 변수(qualitative or attribute variable): 수치가 아닌 특성 또는 범주(category) 등으로 나타나는 변수
• 예) 성별, 결혼 여부, 직업, 혈액형 등
- 양적 변수(quantitative variable): 변수가 수치(값)로 표시되는 변수
• 예) 키, 나이, 주가, 경제성장률 등
■ 양적 변수의 종류
- 이산형 변수(discrete variable): 특정 값(수치)를 가지며, 값들 사이에 일정한 간격이 존재함.
- 연속형 변수(continuous variable): 특정 범위 내에서 연속적인 형태의 값을 가짐.
■ 수치를 이용한 기술적 통계 기법
- 자료의 중심위치(central location) 측정
• 평균(mean), 중앙값(median), 최빈값(mode)
- 자료의 변동성(산포경향: variability) 측정
• 범위(range), 분산(variance), 표준편차(standard deviation), 변동계수(coefficient of variation)
- 자료들 간의 선형적 관련성(linear relationship) 측정
• 공분산(covariance), 상관계수(correlation coefficient)
■ 중심위치 측정(1): 평균(mean)
- (산술적) 평균((arithmetic) mean, average):
• 자료의 중심위치를 파악하는데 가장 일반적이고 유용한 측정 방법임.
- 평균은 단순히 모든 변수의 관측값들을 합하여 전체 변수들의 수로 나누어 계산함.
평균 = (전체 자료값의 합)/(전체 자료값의 수)
- 모평균(population mean): 모집단의 평균
• 모집단 자료에서 변수들의 전체 수를 “N”으로 표기
• 모평균은 “𝜇”로 표기
- 표본평균(sample mean): 표본자료의 평균
• 표본자료에서 변수들의 전체 수를 “n”으로 표기
• 표본평균은 “x̄”(x bar)로 표기
■ 평균(mean)의 특성
– 모든 자료값들을 이용함,
– 오직 하나의 값을 가짐.
– 평균과 각 변수값들의 차이, 편차(deviation)의 합은 항상 0임.
– 평균은 극한치(extreme values)나 이상치(outliers)의 영향을 받음.
• 극한치: 다른 변수값들과 비교하여 비-정상적으로 크거나 작은 변수값
• 이상치: 변수값을 측정하는 과정 또는 수집하는 과정에서 실수에 의해 발생하는 비-정상적인 변수값
■ 중심위치 측정(2): 중앙값(median)
- 중앙값: 자료의 모든 변수값들을 크기 순서대로(오름차순 또는 내림차순) 정리하여 가운데 위치하는 값
- 모집단 자료나 표본자료에서 중앙값을 산출하는 방법은 동일함.
- 예) Data: {0, 7, 12, 5, 14, 8, 0, 9, 22}, N=9 (홀수)
• 크기 순서대로 정리하면 중앙에 위치하는 수는 8
• 중앙값은 8.
- 예) Data: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33}, N=10 (짝수)
• 크기 순서대로 정리하면 가운데에 위치하는 수는 8과 9
• 중앙값은 8과 9의 평균값인 8.5
■ 중앙값의 특성
- 각 자료는 오직 하나의 중앙값을 가짐.
- 평균과 달리 비-정상적으로 크거나 작은 변수값(이상치, 극한치)들에 의해 영향을 받지 않음.
- 따라서 자료에 비-정상적인 변수값들이 포함된 경우에 중심위치 측정에 유익함.
■ 중심위치 측정(3): 최빈값(mode)
- 최빈값: 주어진 자료에서 가장 빈번하게 나타나는 변수의 값
- 한 자료 안에서 최빈값이 두 개 이상 존재할 수 있음.
- 모집단과 표본에서의 최빈값은 같은 방법으로 산출함.
• 예) Data: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33}, N=10
• 주어진 지료에서 가장 빈번하게 나타나는 변수값(최빈값)은 0
■ 히스토그램과 대칭성
- 자료의 분포(distribution of data)
- 빈도분포(frequency distribution)를 이용하여 자료를 요약 정리할 수 있음.
- 히스토그램(histogram)이 가장 일반적인 그래프임.
- 대칭성(symmetry): zero skewness(왜도)
• 히스토그램의 중앙에서 수직선을 그렸을 때, 양쪽 모양과 크기가 정확하게 일치할 경우, 히스토그램이 대칭적(symmetric)임.
- 비-대칭성(asymmetry): skewness
• 히스토그램에서 꼬리 부분이 오른쪽 또는 왼쪽으로 늘어지게 나타나는 경우
양의 비대칭(positively skewed)
음의 비대칭(Negatively Skewed)
• zero skewness: mode = median = mean
• positive skewness: mode < median < mean
• negative skewness: mode > median > mean
■ 평균, 중앙값, 최빈값의 관계
- 세 가지의 중심위치 측정 방법 중에서 어느 방법이 가장 유용한가?
- 일반적으로 평균(mean)이 가장 유용함.
- 상황에 따라 중앙값(median)이 평균보다 유용할 수 있음.
• 자료에 이상치나 극한치가 포함되어 있는 경우
• 중앙값은 평균에 비해 이상치나 극한치에 영향을 덜 받기 때문에
- 최빈값은 두 개 이상의 값이 존재할 수 있기 때문에 중심위치 척도로 적합하지 않음.
(2025.01.05.)
댓글 없음:
댓글 쓰기