2024/08/14

[경제통계학] 자료분석방법(3): 수치를 이용한 기술적 통계분석



■ 변동계수(coefficient of variation:cv)

- 변동계수(cv)는 표준편차를 평균으로 나눈 값임.

- 모집단의 변동계수

- 표본의 변동계수

- 변동계수는 변동성의 비율적 측정값을 나타냄.

• 예) 평균값이 100인 경우 표준편차가 10이면 변동성이 크게 나타날 수 있으나 평균값이 1,000이면 표준편차 10은 변동성이 크게 나타나지 않음.

• 자료의 변수값들의 측정 단위가 서로 달라 변동성의 비교가 어려운 경우에 표준편차를 사용하여 변동성을 비교함.

■ 선형적 관련성의 측정(Measures of Linear Relationship)

- 서로 다른 두 가지 자료들 또는 변수들 간의 선형적 관련성에 대한 수치적 측정 방법

- 공분산(covariance)과 상관계수(coefficient of correlation)

■ 공분산의 산출식

- population covariance:

• 𝜇ₓ: X의 모평균

• 𝜇y: Y의 모평균

- sample covariance:

• x-bar: X의 표본평균

• y-bar: Y의 표본평균

• 주의: 분모값이 n-1

- 표본평균의 산출이 필요 없는 방법

■ 공분산의 해석

- 위의 각 표본자료에서, X값들은 크기와 순서가 모두 같고, Y값들은 크기는 같으나 순서가 서로 다름.

- Data set 1

• X값이 증가함에 따라 Y값도 함께 증가함.

• 공분산(Sxy)이 크고 양의 값을 가짐.

• 두 변수 간 강한 양의 선형관계(strong positive linear relation)

- Data set 2

• X값이 증가함에 따라 Y값이 감소함.

• 공분산(Sxy) 값이 크고 음의 값을 가짐.

• 두 변수 간 서로 강한 음의 선형관계(strong negative linear relation)

- Data set 3

• X값이 증가함에 따라 Y값은 임의적으로 변화함.

• 공분산(Sxy) 값이 적음.

• 두 변수 간 선형관계(positive linear relation)가 미약함.

■ 공분산에 대한 일반적 해석

- 두 변수값들이 서로 같은 방향으로 움직일 경우(같이 증가 또는 감소), 공분산값은 크고 양의 값을 가짐.

• 양의 선형관계(positive linear relation): 공분산값이 클수록 선형관계가 강함.

- 두 변수값들이 서로 반대 방향으로 움직일 경우, 공분산값은 크고 음의 값을 가짐.

• 음의 선형관계(negative linear relation): 공분산값이 작을수록 선형관계가 강함.

- 두 변수값들의 움직임에 특정 형태가 없는 경우, 매우 적은 공분산값을 가짐.

- 그러나 실제로 공분산값의 크기를 결정하기 어려운 경우가 발생하며, 이러한 경우 상관계수(coefficient of correlation)가 더 유용함.

■ 상관계수(Coefficient of Correlation)

- 상관계수값은 공분산을 표준편차로 나눈 값임.

- population coefficient of correlation: 𝜌 (Greek letter “rho”)

- sample coefficient of correlation: r

- 상관계수는 서로 다른 두 변수들 간에 선형관계가 얼마나 강한지를 나타냄.

- 상관계수의 장점은 계수의 값이 –1과 1 사이의 범위 내에서 고정된다는 것임.

• 두 변수가 서로 강한 양의 선형관계에 있다면, 상관계수의 값이 +1에 가까워짐.

• 두 변수가 서로 강한 음의 선형관계에 있다면, 상관계수의 값이 –1에 가까워짐.

• 두 변수가 서로 직접적인 선형관계가 없다면(no linear relation)에 있다면, 상관계수의 값이 0에 가까워짐.

- 상관계수가 0인 것은 두 변수 사이에 선형관계가 없다는 것이지 아무런 관계가 없다는 것은 아님.


• 2차 방정식 관계가 있으나 상관계수는 0에 가까움

■ 예제: 상관계수 계산

- 위의 서로 다른 형태의 세 자료를 이용하여 두 변수 사이의 상관계수를 구하면,

- 두 변수 x, y의 표본분산은


• X-bar: 표본평균

• n: 표본크기



- 두 변수 x, y의 표준편차는,


- 각 자료의 상관계수값은


■ 상관관계(Correlation)와 인과관계(Causation)

- 두 변수 사이에 상관관계가 있다는 것이 두 변수 사이에 항상 인과관계가 있음을 의미하지 않음.

• 상관관계와 인과관계는 서로 다름.

- 두 변수 X, Y가 서로 선형적 상관관계가 있다는 것이 X와 Y가 서로 인과관계가 있음을 나타내는 것은 아니라는 말은, Y의 변화(증가/감소)가 X의 변화(증가/감소)에 의해 발생되는 것은 아니라는 뜻임.

■ 모수와 통계량

- 모수(parameters): 모집단 자료의 특성을 나타내는 기술적 수치들

- 통계량(statistics): 표본자료의 특성을 나타내는 기술적 수치들


(2025.01.14.)


댓글 없음:

댓글 쓰기

[외국 가요] 맥 드마르코 (Mac DeMarco)

Mac DeMarco - Heart To Heart ( www.youtube.com/watch?v=qBoQzo98EpQ ) ​ ​ (2025.01.20.)