[ Ronald N. Giere, John Bickle, and Robert Mauldin (2005), Understanding Scientific Reasoning, 5th Edition (Cengage Learning)
Ronald N. Giere 외, 『과학적 추론의 이해』 [제5판], 조인래・이영의・남현 옮김 (소화, 2008), 208-257쪽. ]
5.1. 왜 통계적 모형과 확률적 모형이 중요한가
5.2. 통계적 연구의 요소들
5.3. 비율과 분포
5.4. 간단한 상관
5.5. 상관의 대칭성
5.6. 상관 강도
5.7. 확률 모형
5.8. 동전을 던져 결정하는 판사
5.9. 표집
5.10. 대표본
5.11. 부등확률 표집
이 장의 두 가지 목적
(i) 통계적 모형의 기본 유형을 알려주는 것
(ii) 통계적 자료가 어떻게 통계적 가설을 위한 증거로 사용될 수 있는가를 이해하는데 필요한 확률적 모형에 대한 지식을 제공하는 것
5.1. 왜 통계적 모형과 확률적 모형이 중요한가
통계적 모형은 과학에서, 특히 사회과학, 행동과학, 생의학에서 널리 사용됨.
그러한 모형들이 이 분야의 과학자들이 답하려는 부류의 질문에 적합함.
질문의 예들: 20세부터 30세 사이의 미국 여성들 중 전 시간제 근로자는 몇 %인가? 음식물을 통해 콜레스테롤 섭취가 남성에게 심장마비를 일으키는가?
5.2. 통계적 연구의 요소들
- 실세계 모집단: 연구의 조사대상
• 예) 20세부터 30세 사이의 미국 여성
- 실세계 표본: 모집단에서 선택한 일부 구성원들
- 모집단의 모형: 실세계 모집단의 통계적 모형
• 예) 구슬이 가득 담긴 항아리
- 표본의 모형: 모집단의 모형에서 선택된 표본
5.3. 비율과 분포
(1) 가정
모집단에 대한 하나의 통계적 모형으로서 붉은 구슬과 그 밖의 구슬로 가득 찬 항아리가 존재함.
항아리 속에 구슬 100개가 있음. 그 중 붉은 구슬이 50개, 초록 구슬이 30개, 푸른 구슬이 20개.
(2) 변수: 여러 특정한 형태들을 나타낼 수 있는 일반적 속성.
가정 속의 항아리 모형 속에서 변수는 색(color)이다.
(3) 변수의 값: 변수의 특정한 형태
가정 속의 항아리 모형 속에서 변수의 값은 붉은색, 초록색, 푸른색 등
(4) 변수가 가질 수 있는 가능한 값들의 집합에 대한 두 가지 제한: 배타적(exclusive)이면서 망라적(exhaustive)이어야 함.
(4-1) 배타적: 모집단의 각 구성원이 오직 하나의 값만을 가질 수 있음.
(4-2) 망라적: 모집단의 각 구성원은 반드시 어떤 값을 나타내야 하며, 따라서 변수가 가질 수 있는 값들의 집합에는 변수의 값이 가질 수 있는 모든 가능성들이 총망라되어 있어야 함.
(5) 분포: 하나의 변수가 갖는 가능한 값들에 대응하여 모집단에서 그 값에 할당하는 일정한 백분율.
가정 속의 항아리에 있는 구슬의 분포는 각각 붉은 구슬 50%, 초록 구슬 30%, 푸른 구슬 20%.
(6) 비율: 변수가 가질 수 있는 값이 두 개뿐인 매우 특별한 경우의 분포.
가정 속의 항아리에 있는 붉은 구술의 비율은 50%가 된다.
5.4. 간단한 상관
(1) 상관: 두 변수 사이의 관계
(2) 상관이 성립할 수 있는 모집단의 모형
(3) 가정: 모형 모집단이 붉은 구슬 60개와 초록 구슬 40개로 구성되어 있다. 붉은 구슬 중 45개는 크고 15개는 작다. 초록 구슬 중 30개는 크고 10개는 작다.
(4) 이 경우 크기와 색 사이에 상관이 없다.
(5) 가정: 모집단이 붉은 구슬 60개와 초록 구슬 40개로 구성되어 있다. 붉은 구슬 중 45개는 크고 15개는 작다. 초록 구슬 중 10개는 크고 30개는 작다.
(6) 이 경우 크다는 것과 붉은색 사이에 양의 양관이 있다.(positively correlated)
(7) 가정: 모형 모집단이 붉은 구슬 60개와 초록 구슬 40개로 구성되어 있다. 붉은 구슬 중 15개는 크고 45개는 작다. 초록 구슬 중 20개는 크고 20개는 작다.
(8) 이 경우 크다는 것과 붉은 색 사이에 음의 상관이 있다.(negatively correlated)
5.5. 상관의 대칭성
상관은 대칭적이다. 따라서 두 변수가 상관될 때 둘 중 어느 하나를 선호할 이유가 없다.
[그림 5.10] 모집단에서 크기와 색이 상관없는 [그림 5.7]의 모형에 대한 동등한 표현들
[그림 5.11] [그림 5.8]의 모집단에서 크다는 것은 붉은색 사이에 성립하는 양의 상관에 대한 동등한 표현들
5.6. 상관 강도
상관 강도: 모집단에서 크다는 속성과 붉다는 속성 사이에 존재하는 상관 강도는 붉은 구슬 중 큰 구슬의 비율과 초록 구슬 중 큰 구슬의 비율의 차이를 소수로 표현한 것.
예) [그림 5.8]에서 크다는 것과 붉다는 것 사이의 상관 강도는 0.75-0.25=0.50이다.
[그림 5.8] 크다는 것이 붉은 색과 양의 상관이 있는 모집단의 모형
5.7. 확률 모형
(1) 가정: 모집단 모형 1 [그림 5.12]
[그림 5.12] 모집단 모형 1에서 구슬들의 분포
(2) 확률: 특정한 모집단에 대해 정의되는 확률 변수(random variable)의 값들과 연관된 측도, 즉 그 값들을 가지는 개체들의 비율. 가정 속의 모집단에서 붉은 구슬의 비율은 100/200이고 따라서 붉을 확률은 0.50이다.
(3) 확률의 표현: 표준적인 기호법에 따라 표현하는데 앞선 경우 P(R)=0.50으로 표현한다.
(4) 확률 모형: 비율의 구조를 가지며, 이러한 구조의 세부는 비율들을 결합하는 덧셈 규칙과 곱셈 규칙에 의해 주어짐.
(5) A와 B가 상관이 없는 확률 변수의 값인 경우, 단순 덧셈 규칙과 단순 곱셈 규칙을 사용하고, 상관이 있는 확률 변수의 값인 경우, 일반 덧셈 규칙과 일반 곱셈 규칙을 사용함.
단순 덧셈 규칙: P(A or B) = P(A)+P(B)
단순 곱셈 규칙: P(A and B) = P(A)×P(B)
일반 덧셈 규칙: P(A or B) = P(A)+P(B)-P(A and B)
일반 곱셈 규칙: P(A and B) = P(A)×P(B/A)
5.8. 동전을 던져 결정하는 판사
(1) 문제: 세 명의 판사 중, 두 명은 3/4의 확률로 옳은 판결을 내리고 한 명은 1/2의 확률로 옳은 판결을 내리며, 최종 판결은 3분의 2 다수로 결정되는 경우, 옳은 평결에 도달할 확률은 얼마인가?
(2) 해답: 배심의 평결이 옳을 확률은 개별 판사들이 내리는 옳은 결정의 조합에 주어지는 확률들의 합이고 따라서 그 값은 24/32 또는 3/4이다.
P(1C, 2C, 3C) = P(1C)×P(2C)×P(3C) = 3/4 × 3/4 × 1/2 = 9/32
P(1C, 2C, 3M) = P(1C)×P(2C)×P(3M) = 3/4 × 3/4 × 1/2 = 9/32
P(1C, 2M, 3C) = P(1C)×P(2M)×P(3C) = 3/4 × 1/4 × 1/2 = 3/32
P(1M, 2C, 3C) = P(1M)×P(2C)×P(3C) = 1/4 × 3/4 × 1/2 = 3/32
무책임한 판사는 충실한 판사들 중 한 명의 판단을 상쇄하는 결과를 산출함.
배심은 충실한 판사 한 명만으로도 똑같이 잘 할 수 있음.
5.9. 표집
(1) 표집의 목적: 모집단에서 선택한 소수의 개체를 조사함으로써 그 모집단 전체에 대해 무엇인가를 아는 것
(2) 표집의 방식: 복원 표집과 비복원 표집
(2-1) 작은 모집단에서 하는 표집은 항상 복원과 더불어 이루어져야 한다.
(2-2) 큰 모집단에서 비복원 표집을 하는 것은 작은 모집단에서 복원 표집을 하는 것과 같다.
(3) 시행: 모집단에서 개체를 선택하는 것
(4) 임의 표집(random sampling)
(4-1) 가정: 모집단 모형 1[그림 5.12]
(4-2) 조건1: 각 시행에서 붉은 구슬이 나올 확률은 모집단에서 붉은 구슬이 나올 확률과 같아야 하며 모형 1에서 그 확률은 0.50이다.
(4-3) 조건2: 두 번 시행한 결과는 상관되지 않는다.
(4-4) 상대 빈도(relative frequency): 개체 유형들의 상대적 수. 모형 1에서 두 개의 구슬을 선택하는 결과는 둘 다 붉지 않거나(0R), 하나만 붉거나(1R), 둘 다 붉은 경우(2R)일 것이다. 이 경우 R의 상대 빈도는 세 가지의 다른 값, 즉 0/2(0), 1/2(0.5), 2/2(1.00)을 가진다.
(4-5) 임의 표집의 경우, 각 상대 반도에 대한 확률 값들은 단순 곱셈 규칙과 단순 덧셈 규칙을 사용하여 얻을 수 있다.
(4-6) P(R)=1/2인 모집단에서 두 번 시행했을 때 나타나는 R의 상대 빈도에 따른 확률 값들
P(0R) = P(N, N) = 1/4
P(1R) = P[(R, N) or (N, R)]
= P(R, N)+P(N, R)
= 1/4+1/4
= 1/2
P(2R) = R(R, R) = 1/4
(4-7) P(R)=1/2인 모집단에서 두 번 시행했을 때 나타나는 R의 상대 빈도에 따른 표집 분포
[그림 5.19] P(R)=1/2인 모집단에서 두 번 시행했을 때 나타나는 R의 상대 빈도에 대한 표집 분포
(4-8) P(R)=1/2인 모집단에서 세 번, 네 번, 다섯 번 시행했을 때 나타나는 R의 상대 빈도에 따른 표집 분포
[그림 5.20] P(R)=1/2인 모집단에서 세 번 시행했을 때 나타나는 R의 상대 빈도의 표집 분포
[그림 5.21] P(R)=1/2인 모집단에서 네 번 시행했을 때와 다섯 번 시행했을 때 나타나는 R의 상대 빈도의 표집 분포
5.10. 대표본
(1) P(R)=1/2인 모집단에서 10번, 25번, 50번 시행했을 때 나타나는 R의 상대 빈도에 따른 표집 분포
[그림 5.22] P(R)=1/2인 모집단에서 10번, 25번, 50번 시행했을 때 나타나는 붉은 구슬의 상대 빈도의 표집 분포
(2) P(R)=1/2인 모집단에서 100번, 250번, 500번 시행했을 때 나타나는 R의 상대 빈도에 따른 표집 분포
[그림 5.23] P(R)=1/2인 모집단에서 100번, 250번, 500번 시행했을 때 나타나는 R의 상대 빈도의 표집 분포
(3) 기대 분포, 평균 빈도, 중간 빈도: 표집 분포에서 가장 확률이 높은 빈도
(4) 표준 편차(standard deviation): 표집 분포의 평균으로부터의 편차를 측정하는 단위
(5) 표준 편차의 조작적 사용 방법
(5-1) 평균으로부터 한 표준 편차 안에 있을 수 있는 빈도들의 확률을 모두 합하면 67%가 된다.
(5-2) 평균으로부터 두 표준 편차 안에 있을 수 있는 빈도들의 확률을 모두 합하면 95%가 된다.
(5-3) 평균으로부터 세 표준 편차 안에 있을 수 있는 빈도들의 확률을 모두 합하면 99%가 된다.
(6) 대표본의 가치
(6-1) 표본이 클수록 모집단에서 R의 비율(즉 50%)에 가까운 상대적인 수를 관찰할 확률이 증가한다.
(6-2) 또한 선택한 결과 R이 한 번도 안 나오거나 모두 R일 확률은 절반이 R일 확률에 비해 빠르게 감소한다.
[그림 5.19]에서 [그림 5.21]까지 나와 있는 분포들의 양끝을 보면 잘 드러난다.
(6-3) 결국, 표본이 클수록 그 표본에서 관찰되는 빈도가 모집단에서의 실제 비율에 가까울 확률은 커진다.
5.11. 부등확률 표집
(1) 등확률 표집: 한 차례의 선택에서 나올 수 있는 결과의 확률이 동일한 경우의 표집. 모형1에서 붉은 것과 붉지 않은 것이 나올 확률은 0.50으로 동일하다.
(2) 부등확률 표집: 한 차례의 선택에서 나올 수 있는 결과의 확률이 동일하지 않을 경우의 표집. 모형1에서 초록 구슬과 그렇지 않은 것이 나올 확률은 각각 0.25와 0.75로 동일하지 않다.
(3) 부등확률 표집과 등확률 표집 사이에 근본적 차이는 없다. 즉, 표본이 커질수록 표본 빈도가 모집단 비율에 근접할 확률은 커진다. 단지 분포가 치우쳐 있으며, 약간 비대칭이라는 차이가 있는데, 표본이 커질수록 비대칭은 약해진다.
[그림 5.26] P(G)=1/4인 모집단에서 25번과 50번 시행했을 때 나타나는 초록색의 상대 빈도에 대한 표집 분포
(2021.12.28.)
댓글 없음:
댓글 쓰기