2016/03/23

[경제통계학] 자료수집과 표본추출



■ 자료의 종류

- 자료 형태에 따른 분류

• 양적 자료(quantitative data): 관측된 실수값들의 집합

• 질적 자료(qualitative data): 질적 특성에 근거하여 분류될 수 있는 관측값들의 집합

- 관측 방법에 따른 분류

• 횡단면 자료(cross section data): 관심 대상이 되는 특정 변수를 일정 시점에서 여러 개체별로 관측하여 만든 자료

• 시계열 자료(time series data): 관심 대상이 되는 특정 변수를 시간 순서에 따라 일정 기간 관측하여 만든 자료

• 패널자료(panel data): 관심 대상이 되는 특정 변수를 여러 개체별로 시간 순서에 따라 일정 기간 관측하여 만든 자료

■ 자료수집(Data Collecting) 방법

- 직접적인 관측

• 자료를 수집하는 가장 간단하고 편리한 방법은 연구 대상이 되는 변수를 직접 관측하는 것

• 단점: 일반적으로 정확한 자료를 제공하지 못함.

- 실험

• 특정 요인을 제외한 다른 요인들을 통제하면 유용한 정보를 얻을 수 있음.

• 단점: 많은 시간과 경비가 소요됨.

- 조사(Survey)

• 모집단의 특정 항목에 대한 정보를 얻기 위해 사용됨.

• 방문조사, 전화조사, 우편조사, 인터넷 조사 등

• 자료수집 대상에 따라 전수조사와 표본조사로 나눌 수 있음.

• 전수조사(population survey): 모집단(연구대상 전체)을 조사. 비용적・시간적 제약

• 표본조사(sample survey): 표본(모집단의 부분집합)을 조사

■ 표본추출(Sampling) 방법

- 표본추출 방법: 모집단으로부터 표본을 어떻게 추출할지에 대한 과정 또는 방법

• 일반적인 방법은 단순 임의 표본추출법과 층화 임의 추출법

- 단순 임의 표본추출법(Simple random sampling)

• 동일한 크기의 모든 가능한 표본들이 똑같은 확률로 선택될 수 있도록 표본을 추출하는 방법

- 층화 임의 추출법(Stratified random sampling)

• 모집단을 서로 배타적인 그룹으로 나누어서, 각 집단별로 임의 추출하여 표본을 만드는 방법

• 장점: 표본추출오차를 줄여 모집단에 대한 더 정확한 정보를 얻을 수 있음.

• 단점: 모집단에 대한 정확한 정보가 있어야 함. 비용이 많이 소요됨. 모집단을 집단별로 나누는 기준변수를 찾기가 어려움.

■ 표본추출 오차와 비-표본추출 오차

- 표본추출 오차(sampling error)

• 표본으로 추출된 자료값들에 의해 나타나는 모집단과 표본 사이의 차이

• 표본크기를 증가시킴으로써 오차를 줄일 수 있음.

- 비-표본추출 오차(non-sampling error)

• 표본추출 오차보다 더 심각한 문제를 일으킴.

• 데이터 수집과정에서 발생하는 실수나 부적절하게 선택된 표본자료값들로 인해 발생함.

■ 비-표본추출 오차의 유형

- 자료수집 과정의 오차

• 잘못된 자료 측정에 의한 오차, 관측된 자료를 기록하는 과정에서 발생되는 오차 등

- 무응답 오차

• 조사(survey) 과정에서 표본의 구성요소가 응답하지 못하거나 할 수 없기 때문에 발생되는 오차

• 표본이 모집단의 대표성을 상실하게 됨.

- 선택 편의(Selection bias)

• 표본을 수집하는 과정의 잘못으로 인해 모집단의 특정 집단이 선택에서 배제되어 발생하는 오차

■ 표본크기 결정

- 표본의 크기가 클수록 표본에 의한 추정이 더 정확해짐.

- 표본 크기(sample size)를 결정하는 방법은 추정과정에서 다시 논의

(2024.12.05.)


2016/03/21

인지과학캠프 뒤풀이 자리에서 들은 선생님들의 과거



<인지과학캠프>를 운영한 업체에서 캠프에 참여한 강사들한테 이메일을 보냈다. <인지과학캠프> 끝나고 며칠 뒤 협회에서 하는 세미나가 있으니 관심 있으면 가서 보고 관심 없어도 저녁만 먹고 가도 된다는 내용이었다.


나는 낯을 많이 가린다. 그런데 저녁 먹는 장소가 고기집이다. 낯을 많이 가리지만 고기를 먹고 싶다. 고기를 먹고 싶지만 나는 낯을 많이 가리는데 오늘 따라 연구실에 사람이 없다. 학생식당에서 혼자 밥 먹으나 고기집에서 혼자 밥 먹으나 그게 그거다. 생각이 여기에 미치니 고기집에 혼자 가는 게 별 일 아닌 것처럼 보였다.


강사 중에 원래 아는 사람이 두 명 있었는데 둘 다 멀리 살아서 고기집에 혼자 갔다. 캠프 강사가 열네 명인데 고기집에 온 사람은 나밖에 없었다. 상관없다. 나는 밥 먹고 가면 되니까. 다시 안 볼 사람이면 다시 안 볼 거니까 내가 눈치 볼 필요가 없고 어쩌다 계속 볼 사람이면 계속 볼 거니까 오늘 처음 보면 된다. 그러니 나는 그냥 먹고 싶은 거 먹으면 된다.


고기집에 갔다. 내가 아는 사람이 한 명도 없었다. 자리에 앉으려는데 어떤 아저씨가 내 정체를 물어봤다. “캠프에서 강사했습니다.” 이 한 마디에 아저씨들이 갑자기 반가운 척을 하기 시작했다. “아-아-, 캠프 잘 됐어요? 아-아- 수고하셨네. 나 그거 한다고 이야기만 듣고 어떻게 됐는지 몰랐는데, 아-아- 반가워요.”


철학 전공이라고 하니까 유형화된 질문이 들어왔다. 내 앞가림도 못 하는 주제에 철학에 관한 답변을 하려니 민망했지만, 어쨌거나 이 사람들은 아예 모르니까 나는 아무렇지도 않은 듯 뻔뻔하게 이야기했다. 고기를 한참 먹고 있는데, 그제서야 업체 직원이 왔다.


저녁 먹는 자리에서 어떤 아저씨는 나한테 지도교수가 누구냐고 물었다. ㅈㅇㄹ 선생님이라고 하니까 자기는 서양사학과 89학번이라면서 철학과 이야기를 했다. 그 분은 학부를 서양사학과를 졸업한 뒤 ㄱ 선생님이 만든 인지과학협동과정에서 석사학위를 받고 박사 수료를 했다고 한다.


“아, ㅈㅇㄹ 선생님! 내가 그분 수업 듣다가 포기했잖아. 왜 그런 줄 알아요? 도대체 무슨 말인지 모르겠어. 내용이 뭔지를 떠나서 도저히 무슨 말씀인지 아예 발음을 못 알아듣겠는 거야! 아하하하하!”


그랬다. 내 지도교수님의 발음은 20년보다 훨씬 좋아진 것이었다. 정말 다행이다. 그 아저씨는 철학과의 다른 선생님에 관한 이야기도 했다.


“원래 철학과 사람들은 한 번 꽂히면 완전히 푹 빠져요. 그때(1990년대 초반)는 철학과에 바둑이 유행이었어요. 시간만 나면 죄다 바둑을 두는 거야. 그때 학과장이 ㄱㄴㄷ 선생님인데 과 사무실에 갔더니 사람들이 죄다 바둑을 두고 있는 걸 본 거예요. 열이 확 나잖아. 그래서 그 선생님이 어떻게 했는지 알아요? 바둑판을 운동장에 내다 던졌어요. 아하하하하하!”



(2016.01.21.)


2016/03/20

고등학생들도 아는 <클레멘타인>



어느 외고에서 한 인지과학 캠프에서 강사를 했다. 내가 맡은 건 인지과학 서론-방법론과 철학이었다. 인지과학 방법론 내용 중에는 인간이 주어진 정보를 바탕으로 의사결정을 할 때 직관적으로 어림잡아 추정하는 방법을 쓰는데 그 방법이 왜 믿을만하지 못한지 소개하는 부분이 있었다.





우선 사람 이름 스물네 개가 적힌 표를 화면에 띄우고 10초 동안 외우도록 한다. 10초 후 화면에서 표를 치운 후 학생들에게 묻는다. “남자 이름이 많았나요, 여자 이름이 많았나요?” 대부분은 여자 이름이 많았다고 답한다. 실제로는 남자 이름이 열네 개, 여자 이름이 열한 개였다. 실제와 달리 여자 이름이 많다고 응답한 이유는 남자 이름은 낯선 정보이고 여자 이름이 익숙한 정보(유명 연예인)이기 때문이다. 나는 이름을 짚으면서 누구인지 설명했다.

“자, 맨 처음에 ‘구태훈’ 있죠? 누구죠? (침묵) 아무도 모르죠? 이 분은 성균관대 사학과 교수예요.”

사실, 그 표에 내가 이름을 넣은 건 아니라서 원작자가 생각한 ‘구태훈’이 구태훈 교수인지 다른 사람인지는 모른다. 어쨌든 그건 중요하지 않다. 명단에 나온 남자가 여자보다 안 유명하면 되고 아이들이 재미있어하면 된다. 나는 내가 아는 대로 말했다.

“여기 ‘강소라’ 있고 ‘김연아’ 있죠. 이 둘은 다 알 거고 옆에 ‘김진만’ 누구죠? MBC PD죠. 그 옆에 ‘김학철’은요? KBS 사극에 자주 나오는 아저씨 있어요.”

내가 명단에 나온 남자를 (내 마음대로) 설명하자 아이들이 조금씩 웃었다. ‘신민아’, ‘손연재’를 지나서 나는 ‘이동준’을 가리켰다.

“‘이동준’ 누구죠? 몰라요? 불멸의 역작 <클레멘타인>의 주연배우이자 제작자죠.”

대부분 눈을 동그랗게 뜨고 ‘그게 누구지?’ 하는 표정을 짓는데 몇몇 학생들이 배를 잡고 웃기 시작했다. 웃음인지 울음인지 분간이 안 가는 기괴한 소리를 내며 주변 친구들한테 말을 하기 시작했다. “<클레멘타인> 몰라? 네이버 평점 1위, ‘이 영화를 보고 암이 나았습니다’ 몰라? ‘이 영화를 보고 암이 나았어요. 암세포가 암이 걸려 암이 나았습니다’ 몰라?”

교실에 있던 학생들이 모두 웃기 시작했다. 모두들 배를 잡으며 “아, 클레멘타인! 클레멘타인!”을 연호했고 일부는 “아빠 일어나!”를 외쳤다.





다른 강사들 이야기를 들으니, 심신 문제 다룰 때 도입부에 영화 <매트릭스> 이야기를 하는데 학생들 중 <매트릭스>를 본 사람이 아무도 없다고 했다. 1999년에 태어난 학생들은 1999년에 개봉한 <매트릭스>를 몰랐다. 그런데 <매트릭스>를 모르는 학생들도 2004년에 나온 <클레멘타인>은 알고 있었다.

강의가 끝나고 교실을 나오려는데 한 학생이 내 앞에 왔다. “선생님은 <클레멘타인>을 어떻게 아세요?” 나는 대답했다. “대학교 1학년 때 <클레멘타인>이 나왔죠. 내 컴퓨터 하드에는 지금도 <클레멘타인> 파일이 있어요.”

* 뱀발(1): 내가 가수를 잘 몰라서 강의 때 대충 넘어갔는데, 신재평과 이장원은 <페퍼톤스>의 멤버이고 구태훈과 김진만은 <자우림>의 멤버라고 한다. 이동준은 이적의 본명이라고 한다. 강의 자료를 만든 사람이 표에 이동준을 넣을 때 <클레멘타인>을 염두에 두지 않았던 모양이다.

* 뱀발(2): <클레멘타인>을 재개봉하면 극장에서 볼 생각이다.

(2016.01.19.)


[프라임 LEET] 2026학년도 대비 LEET 전국모의고사 안내

https://invite.kakao.com/tc/NVNEFmM9U1 ​ 올해 7/20 리트 응시자분들을 위한 단체 채팅방입니다. ​ 리트 언어이해, 추리논증 관련 읽을 만한 논문 등을 게재하고, 6/1부터 매일 세 문제씩 푸는 모형추리(기출이 아닌 ...