2017/08/26

[경제통계학] 자료분석방법(1): 수치를 이용한 기술적 통계분석



■ 기본 개념

- 변수(variable): 모집단 또는 표본 자료의 특성

• 로마자 대문자로 표기함: X, Y, Z, …

• 예) 학생들의 시험점수에 대한 자료

- 변수값(values of the variable): 변수가 가질 수 있는 가능한 모든 관측된 수치들

• 예) 각 학생의 시험점수: (0..100)

- 자료(data): 각 변수의 실제 관측된 값들의 집합

• 예) 학생들의 시험점수의 집합: {67, 74, 71, 83, 93, 55, 48}

■ 변수의 종류

- 질적 변수(qualitative or attribute variable): 수치가 아닌 특성 또는 범주(category) 등으로 나타나는 변수

• 예) 성별, 결혼 여부, 직업, 혈액형 등

- 양적 변수(quantitative variable): 변수가 수치(값)로 표시되는 변수

• 예) 키, 나이, 주가, 경제성장률 등

■ 양적 변수의 종류

- 이산형 변수(discrete variable): 특정 값(수치)를 가지며, 값들 사이에 일정한 간격이 존재함.

- 연속형 변수(continuous variable): 특정 범위 내에서 연속적인 형태의 값을 가짐.

■ 수치를 이용한 기술적 통계 기법

- 자료의 중심위치(central location) 측정

• 평균(mean), 중앙값(median), 최빈값(mode)

- 자료의 변동성(산포경향: variability) 측정

• 범위(range), 분산(variance), 표준편차(standard deviation), 변동계수(coefficient of variation)

- 자료들 간의 선형적 관련성(linear relationship) 측정

• 공분산(covariance), 상관계수(correlation coefficient)

■ 중심위치 측정(1): 평균(mean)

- (산술적) 평균((arithmetic) mean, average):

• 자료의 중심위치를 파악하는데 가장 일반적이고 유용한 측정 방법임.

- 평균은 단순히 모든 변수의 관측값들을 합하여 전체 변수들의 수로 나누어 계산함.

평균 = (전체 자료값의 합)/(전체 자료값의 수)

- 모평균(population mean): 모집단의 평균

• 모집단 자료에서 변수들의 전체 수를 “N”으로 표기

• 모평균은 “𝜇”로 표기

- 표본평균(sample mean): 표본자료의 평균

• 표본자료에서 변수들의 전체 수를 “n”으로 표기

• 표본평균은 “x̄”(x bar)로 표기

■ 평균(mean)의 특성

– 모든 자료값들을 이용함,

– 오직 하나의 값을 가짐.

– 평균과 각 변수값들의 차이, 편차(deviation)의 합은 항상 0임.

– 평균은 극한치(extreme values)나 이상치(outliers)의 영향을 받음.

• 극한치: 다른 변수값들과 비교하여 비-정상적으로 크거나 작은 변수값

• 이상치: 변수값을 측정하는 과정 또는 수집하는 과정에서 실수에 의해 발생하는 비-정상적인 변수값

■ 중심위치 측정(2): 중앙값(median)

- 중앙값: 자료의 모든 변수값들을 크기 순서대로(오름차순 또는 내림차순) 정리하여 가운데 위치하는 값

- 모집단 자료나 표본자료에서 중앙값을 산출하는 방법은 동일함.

- 예) Data: {0, 7, 12, 5, 14, 8, 0, 9, 22}, N=9 (홀수)

• 크기 순서대로 정리하면 중앙에 위치하는 수는 8

• 중앙값은 8.

- 예) Data: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33}, N=10 (짝수)

• 크기 순서대로 정리하면 가운데에 위치하는 수는 8과 9

• 중앙값은 8과 9의 평균값인 8.5

■ 중앙값의 특성

- 각 자료는 오직 하나의 중앙값을 가짐.

- 평균과 달리 비-정상적으로 크거나 작은 변수값(이상치, 극한치)들에 의해 영향을 받지 않음.

- 따라서 자료에 비-정상적인 변수값들이 포함된 경우에 중심위치 측정에 유익함.

■ 중심위치 측정(3): 최빈값(mode)

- 최빈값: 주어진 자료에서 가장 빈번하게 나타나는 변수의 값

- 한 자료 안에서 최빈값이 두 개 이상 존재할 수 있음.

- 모집단과 표본에서의 최빈값은 같은 방법으로 산출함.

• 예) Data: {0, 7, 12, 5, 14, 8, 0, 9, 22, 33}, N=10

• 주어진 지료에서 가장 빈번하게 나타나는 변수값(최빈값)은 0

■ 히스토그램과 대칭성

- 자료의 분포(distribution of data)

- 빈도분포(frequency distribution)를 이용하여 자료를 요약 정리할 수 있음.

- 히스토그램(histogram)이 가장 일반적인 그래프임.

- 대칭성(symmetry): zero skewness(왜도)

• 히스토그램의 중앙에서 수직선을 그렸을 때, 양쪽 모양과 크기가 정확하게 일치할 경우, 히스토그램이 대칭적(symmetric)임.



- 비-대칭성(asymmetry): skewness

• 히스토그램에서 꼬리 부분이 오른쪽 또는 왼쪽으로 늘어지게 나타나는 경우

양의 비대칭(positively skewed)

음의 비대칭(Negatively Skewed)

• zero skewness: mode = median = mean

• positive skewness: mode < median < mean

• negative skewness: mode > median > mean

■ 평균, 중앙값, 최빈값의 관계

- 세 가지의 중심위치 측정 방법 중에서 어느 방법이 가장 유용한가?

- 일반적으로 평균(mean)이 가장 유용함.

- 상황에 따라 중앙값(median)이 평균보다 유용할 수 있음.

• 자료에 이상치나 극한치가 포함되어 있는 경우

• 중앙값은 평균에 비해 이상치나 극한치에 영향을 덜 받기 때문에

- 최빈값은 두 개 이상의 값이 존재할 수 있기 때문에 중심위치 척도로 적합하지 않음.

(2025.01.05.)


댓글 없음:

댓글 쓰기

[KOCW] 경제학 - 파생상품론

■ 강의 영상+자료 ​ 파생금융상품론 / 이시영 (동국대, 2014년 1학기) ( www.kocw.net/home/cview.do?cid=dad6dbf28a4e66d0 ) ​ ​ ■ 강의 자료 ​ 파생상품론 / 윤평식 (충남대, 2011년 2학기) ...