2025/01/15

[통계학의 철학] Otsuka (2023), Ch “Introduction” in Thinking about Statistics 요약 정리 (미완성)



[ Jun Otsuka (2023), Thinking about Statistics: the Philosophical Foundations (Routledge), pp. 1-9. ]

What Is This Book About?

The Structure of the Book

What Is This Book About?

■ 목적 및 대상 독자 [1]

- 이 책은 데이터 과학자에게 철학을 소개하고, 철학자에게 데이터 과학을 소개하고자 함.

- 오츠카는 “데이터 과학”을 통계, 기계학습뿐 아니라 정량적 추론 전반을 아우르는 개념으로 사용함.

■ [1-2]

- 흔히 통계는 실용적이고 수학적으로 완결된 학문으로, 철학은 추상적이고 비-실용적인 사변으로 인식됨.

- 오츠카는 철학이 통계학의 이론적 기초를 명료하게 만든다고 봄.

2-3

통계학은 단지 수학적 기법이 아니라, 지식의 성립 조건을 다루는 철학적 탐구의 연장선에 있음.

통계학과 인식론 사이의 목표, 관심사, 방법론의 평행성(parallelism)을 인식함으로써, 철학자들이 전통적 문제들에 대해 더 풍부한 관점을 가질 수 있음.

3-4

이 책이 통계철학 일반에 대한 입문서가 아님.

- 이유(1): 이 책은 기존 통계철학의 방대한 논의 전체를 다루지 않음.

전통적 입장이나 교과서적 정리를 시도하지 않고, 선택적으로 개입하고 비판적으로 해석하는 방식.

- 이유(2): 이 책은 특정 영역에 머물며 숙련도를 높이는 정적인 입문서가 아니라, 역동적이고 경계 넘는 사유를 유도하는 책임.

The Structure of the Book

4

- 이 책은 철학을 날실(warp)로 하고 통계를 씨실(weft)로 하는 직물과 비슷함.

- 철학적 날실은 세 개의 축으로 구성됨.

존재론(ontology), 의미론(semantics), 인식론(epistemology)

존재론 [4-5

통계학은 물리학이나 생물학처럼 구체적인 경험 영역(empirical domain)을 다루지는 않음.

따라서 겉보기에는 세계에 대한 존재론적 가정 없이도 성립하는 것처럼 보임.

그러나 추론 통계학(inferential statistics)의 관찰된 것에서 관찰되지 않은 것을 추론하는 방식으로 작동하기 때문에, ‘자연의 균일성’(uniformity of nature)과 같은 존재론적 전제 없이는 성립할 수 없음.

통계 모형은 이러한 전제를 수학적으로 형식화한 것이며, 모형마다 상정하는 존재의 정도가 다름.

예) AIC 모델 선택의 기준, 가능한 결과(possible outcomes)에 대한 사고 등은 명백히 존재론적 질문임.

이 책의 각 장에서는 통계 기법들이 전제하는 존재론적 가정을 드러내고, 그것이 우리가 세계를 바라보는 존재론적 관점에 어떤 함축을 갖는지를 탐색할 것임.

의미론 [5

통계는 세계의 구조를 수학적으로 모형화하고, 이를 확률적 진술로 표현함.

그러나 수학과 세계는 다름.

수학적 모형을 경험적 현상의 모형으로 받아들이려면, 확률 명제를 구체적으로 해석해야 함.

예) “the probability of a coin’s landing heads is 0.5” → 확률 진술의 의미는 무엇인가?

예) “the notorious p-value” → p값은 어떻게 해석해야 하는가?

예) “X causes Y” → 인과 진술은 어떤 상태(state) of affairs를 의미하는가?

의미론은 통계 명제와 개념의 의미를 밝히는 것임.

인식론 [5

데이터로부터 어떻게 믿을 만한 지식을 추론할 수 있는가

관찰된 데이터로부터 전제된 존재들을 올바르게 추론하는 기술

현대 사회에서 어떤 주장에 과학적 정당성을 부여하는 핵심 도구가 통계임.

이러한 믿음의 전제는, 통계적 결론은 단순한 직관이나 추측이 아니라, 어떤 방식으로든 정당화(justified)되어 있다는 것

철학에서 정당화 개념 자체가 오랫동안 논의된 것과 비슷하게, 통계학에서도 어떤 결론을 ‘확실하다’ 혹은 ‘지식이다’라고 간주할 수 있는지는 접근 방식에 따라 다름.

예) 베이지안, 고전적 통계, 기계 학습 등은 서로 다른 기준을 사용하며, 그 기준은 명시적이지 않거나, 암묵적으로 가정된 경우가 많음.

이러한 불일치는 단지 기술적 차이가 아니라, 경험적 문제 해결에서 수학적 증명이 어떤 역할을 하느냐에 대한 철학적 태도 차이에서 비롯됨.

이는 20세기 빈도주의자와 베이지안 간의 논쟁으로도 나타남.

오츠카는 이러한 논쟁에서 어느 쪽을 편들지 않음.

이들 간의 정당화 개념의 차이를 인식함으로써 각 체계의 철학적 구조를 이해하고, 통계 추론이 어떻게 지식을 산출하는가를 성찰하는 것이 중요하다고 봄.

베이지안 통계는 현대 인식론의 내재주의(internalism)와 유사하고, 고전적 검정 이론은 외재주의(externalism)과 유사함.

통계학과 철학이 역사적으로는 독립적으로 발전했음에도, 방법론적 목표의 유사성과 구조적 평행성을 보인다는 점에서 주목할 만함.

■ 1장 요약 [6]

- 1장은 통계에 대한 배경지식이 전혀 없는 독자를 위한 입문 역할을 함.

- 1장은 기초 개념들을 검토함

기술 통계와 추론 통계의 구분

표본 통계량, 확률 모형, 분포족 등 필수 수학적 틀을 설명함.

- 책 전체를 관통하는 철학적 주제도 소개함.

통계학의 수학적 언어는 세계에 무엇이 존재하는지를 전제함.

주요 통계 방법들은 각각 존재론적 전제를 기반으로 한 추론 장치로 기능함.

■ 2장 요약 [6]

- 2장은 베이지안 통계를 다룸.

베이지안 통계의 표준 의미론인 확률의 주관적 해석(subjective interpretation)을 검토

베이즈 정리(Bayes’ theorem)와 그것에 기초한 귀납적 추론 예시들을 소개

- 베이지안 추론은 증거에 따라 확률적으로 믿음을 갱신하는 과정으로 이해됨.

믿음은 가설에 대한 믿음의 정도(degree of belief)를 의미함.

이는 베이지안 통계가 인식 주체(epistemic agent)의 신념에 초점을 맞춘다고 보는 것임.

- 이러한 추론 구조는 현대 인식론의 내재주의(internalism)와 잘 들어맞음.

내재주의: 믿음은 오직 다른 믿음들을 통해서만 정당화될 수 있다는 견해

- 사전확률(prior probability)이나 가능도(likelihood)의 정당화 문제는, 인식론에서의 토대주의(foundationalism)와 평행한 문제로 해석가능함.

- 베이지안 추론이 위와 같은 인식론적 문제를 피하려면, 사후확률의 내부 계산(posteriors)만으로는 부족하며, 모형 검토(model-checking), 예측 평가(prediction evaluation) 등의 모형 외적 고려(extra-model considerations)가 필요함.

■ 3장 요약 [6-7]

- 3장은 고전적 통계학, 특히 통계적 가설 검정 이론을 다룸.

고전적 통계학의 표준 의미론인 빈도주의적 확률 해석

유의수준 및 p-값과 같은 핵심 개념을 포함한 검정 이론의 기초

통계 검정은 특정 가설을 기각해야 할지를, 일정한 오류 확률과 함께 알려주지만, 흔한 오해와는 달리, 그것들은 가설의 진리값이나 심지어 그 확률에 대해서조차 말해주지 않음.

- 오츠카는 외재주의적 인식론에서 실마리를 찾음.

신빙주의와 노직의 추적 이론에 기대어, 좋은 검정은 신뢰할 수 있는 인식적 과정이며 그 결론은 외재주의적 의미에서 정당화된다고 주장함.

이 관점을 통해 우리는 최근 몇 년간 논쟁의 대상이 된 p-값의 오남용과 재현성 위기를 검정 절차의 신뢰성과 관련된 문제로 이해할 수 있고, 고전적 통계학 전반에 대한 비판 역시 그것의 외재주의적 인식론적 성격에 대한 의심에서 비롯됨을 볼 수 있음.

■ 4장 요약 [7]

4장의 주요 주제는 예측(prediction)이며, 특히 모형 선택(model selection)과 딥러닝(deep learning)

아카이케 정보 기준(Akaike Information Criterion, AIC)

어떤 모델이 세계를 더 정밀하고 정확하게 기술할 수 있다고 하더라도, 그 모델이 예측 능력 면에서는 오히려 더 단순하거나 대강의 수준에서 기술하는 모델보다 못할 수 있음을 보여줌.

그 성공에도 불구하고, 딥러닝 모델은 기존의 통계 모형들과는 달리 이론적 토대나 한계가 대부분 알려지지 않았으며, 이 점에서 오히려 시행착오를 통해 발전한 공학적 조리법(engineering recipes)의 축적물에 가까움.

이론적 증명이 부재한 상황에서 우리는 어떻게 딥러닝 모델의 결과를 신뢰하거나 그 결론을 정당화할 수 있을까?

오츠카는 그 단서를 덕 인식론(virtue epistemology)에서 찾음.

딥러닝 모델의 신뢰성은 그 모델 특유의 인식론적 능력(epistemological capability) 혹은 인식적 덕(epistemic virtue)에 따라 평가될 수 있다고 주장할 것임.

■ 5장 요약 [8]

5장은 인과 추론(causal inference)을 다룸.

- 인과성이 확률은 어떻게 다른가?

인과 추론과 확률 추론은 서로 다른 존재론적 범주에 속하는 것들임.

예측은 ‘현실 세계에 대한 추론’

인과 추론은 ‘가능한 세계들에 대한 추론’

단순한 데이터 분석과는 달리, 인과 추론은 관측 불가능한 것에 대한 가정을 필요로 함.

- 인과 추론의 두 접근 방식

반-사실적 모형은 실제 세계와 가능한 세계의 차이를 잠재 변수(potential outcomes)로 수학화함.

구조적 인과 모형은 변수 간 인과 관계를 그래프 이론적 구조로 표현하고, 그래프의 구조와 확률 분포 사이의 대응관계를 분석함.

- 인과 추론의 성립 조건은 존재론적 수준 간의 연결 가정임.

‘강한 무작위 할당’과 ‘인과 마르코프 조건’ 같은 가정은 데이터와 인과 구조를 연결하는 필수적 전제임.

이런 가정이 없다면, 데이터만으로는 인과 추론이 식별 불가능함.

- 추정 대상의 존재론적 지위에 대한 인식이 중요함.

우리가 추정하려는 양(estimand)이 어떤 존재론적 층위에 속하는지를 명확히 해야 하고, 어떤 가정들이 그 추정 과정에서 사용되는지도 비판적으로 점검해야 함.

■ [8-9]

그림 0.1은 장들의 논리적 의존을 표현함.


(2025.06.08.)


댓글 없음:

댓글 쓰기

[경제학의 철학] Hands (2001), Ch 8 “The Economic Turn” 요약 정리 (미완성)

[ D. Wade Hands (2001), Reflection without Rules: Economic Methodology and Contemporary Science Theory (Cambridge University Press), pp. 35...