■ 변동계수(coefficient of variation:cv)
- 변동계수(cv)는 표준편차를 평균으로 나눈 값임.
- 모집단의 변동계수
- 표본의 변동계수
- 변동계수는 변동성의 비율적 측정값을 나타냄.
• 예) 평균값이 100인 경우 표준편차가 10이면 변동성이 크게 나타날 수 있으나 평균값이 1,000이면 표준편차 10은 변동성이 크게 나타나지 않음.
• 자료의 변수값들의 측정 단위가 서로 달라 변동성의 비교가 어려운 경우에 표준편차를 사용하여 변동성을 비교함.
■ 선형적 관련성의 측정(Measures of Linear Relationship)
- 서로 다른 두 가지 자료들 또는 변수들 간의 선형적 관련성에 대한 수치적 측정 방법
- 공분산(covariance)과 상관계수(coefficient of correlation)
■ 공분산의 산출식
- population covariance:
• 𝜇ₓ: X의 모평균
• 𝜇y: Y의 모평균
- sample covariance:
• x-bar: X의 표본평균
• y-bar: Y의 표본평균
• 주의: 분모값이 n-1
- 표본평균의 산출이 필요 없는 방법
■ 공분산의 해석
- 위의 각 표본자료에서, X값들은 크기와 순서가 모두 같고, Y값들은 크기는 같으나 순서가 서로 다름.
- Data set 1
• X값이 증가함에 따라 Y값도 함께 증가함.
• 공분산(Sxy)이 크고 양의 값을 가짐.
• 두 변수 간 강한 양의 선형관계(strong positive linear relation)
- Data set 2
• X값이 증가함에 따라 Y값이 감소함.
• 공분산(Sxy) 값이 크고 음의 값을 가짐.
• 두 변수 간 서로 강한 음의 선형관계(strong negative linear relation)
- Data set 3
• X값이 증가함에 따라 Y값은 임의적으로 변화함.
• 공분산(Sxy) 값이 적음.
• 두 변수 간 선형관계(positive linear relation)가 미약함.
■ 공분산에 대한 일반적 해석
- 두 변수값들이 서로 같은 방향으로 움직일 경우(같이 증가 또는 감소), 공분산값은 크고 양의 값을 가짐.
• 양의 선형관계(positive linear relation): 공분산값이 클수록 선형관계가 강함.
- 두 변수값들이 서로 반대 방향으로 움직일 경우, 공분산값은 크고 음의 값을 가짐.
• 음의 선형관계(negative linear relation): 공분산값이 작을수록 선형관계가 강함.
- 두 변수값들의 움직임에 특정 형태가 없는 경우, 매우 적은 공분산값을 가짐.
- 그러나 실제로 공분산값의 크기를 결정하기 어려운 경우가 발생하며, 이러한 경우 상관계수(coefficient of correlation)가 더 유용함.
■ 상관계수(Coefficient of Correlation)
- 상관계수값은 공분산을 표준편차로 나눈 값임.
- population coefficient of correlation: 𝜌 (Greek letter “rho”)
- sample coefficient of correlation: r
- 상관계수는 서로 다른 두 변수들 간에 선형관계가 얼마나 강한지를 나타냄.
- 상관계수의 장점은 계수의 값이 –1과 1 사이의 범위 내에서 고정된다는 것임.
• 두 변수가 서로 강한 양의 선형관계에 있다면, 상관계수의 값이 +1에 가까워짐.
• 두 변수가 서로 강한 음의 선형관계에 있다면, 상관계수의 값이 –1에 가까워짐.
• 두 변수가 서로 직접적인 선형관계가 없다면(no linear relation)에 있다면, 상관계수의 값이 0에 가까워짐.
- 상관계수가 0인 것은 두 변수 사이에 선형관계가 없다는 것이지 아무런 관계가 없다는 것은 아님.
• 2차 방정식 관계가 있으나 상관계수는 0에 가까움
■ 예제: 상관계수 계산
- 위의 서로 다른 형태의 세 자료를 이용하여 두 변수 사이의 상관계수를 구하면,
- 두 변수 x, y의 표본분산은
• X-bar: 표본평균
• n: 표본크기
- 두 변수 x, y의 표준편차는,
- 각 자료의 상관계수값은
■ 상관관계(Correlation)와 인과관계(Causation)
- 두 변수 사이에 상관관계가 있다는 것이 두 변수 사이에 항상 인과관계가 있음을 의미하지 않음.
• 상관관계와 인과관계는 서로 다름.
- 두 변수 X, Y가 서로 선형적 상관관계가 있다는 것이 X와 Y가 서로 인과관계가 있음을 나타내는 것은 아니라는 말은, Y의 변화(증가/감소)가 X의 변화(증가/감소)에 의해 발생되는 것은 아니라는 뜻임.
■ 모수와 통계량
- 모수(parameters): 모집단 자료의 특성을 나타내는 기술적 수치들
- 통계량(statistics): 표본자료의 특성을 나타내는 기술적 수치들
(2025.01.14.)
댓글 없음:
댓글 쓰기