.: [통계학의 철학] Jun Otsuka (2023), Ch 4 “Model Selection and Machine Learning” 요약 정리 (미완성)

2024/04/16

[통계학의 철학] Jun Otsuka (2023), Ch 4 “Model Selection and Machine Learning” 요약 정리 (미완성)

[ Jun Otsuka (2023), Thinking about Statistics: the Philosophical Foundations (Routledge), pp. 109-143. ]

4.1 The Maximum Likelihood Method and Model Fitting

4.2 Model Selection

4.2.1 Regression Models and the Motivation for Model Selection

4.2.2 A Model’s Likelihood and Overfitting

4.2.3 Akaike Information Criterion

4.2.4 Philosophical Implications of AIC

4.3 Deep Learning

4.3.1 The Structure of Deep Neural Networks

4.3.2 Training Neural Networks

4.4 Philosophical Implications of Deep Learning

4.4.1 Statistics as Pragmatist Epistemology

4.4.2 The Epistemic Virtue of Machines

4.4.3 Philosophical Implications of Deep Learning

109

- 과거로부터 미래를 예측하려면 흄이 말한 시간의 흐름에 따라 변하지 않는 “자연의 일양성(uniformity)”을 가정해야 함.

- 추론 통계에서 이러한 일양성은 확률 모형으로 표상되며, 관찰된 데이터로부터 추정됨.

- 질문: 예측을 위해 데이터 생성 과정을 가능한 한 정교하게 하려고 노력하는 것이 항상 좋은 생각인가? 데이터에 충실하지 않은 통계 모형이 더 나은 예측을 하는 것은 불가능한가?

- 저자의 대답: 아니다. 정교한 모형이 항상 더 나은 예측을 하는 것은 아님.

• 더 나은 예측을 하는 것은 아니며, 때로는 현실을 약간 ‘왜곡’하는 모형이 더 나은 예측을 하는 경우도 있음.

- 이 장에서는 모형 선택과 딥러닝을 살펴봄.

4.1 The Maximum Likelihood Method and Model Fitting

109-110

- 본격적으로 들어가기 전에, 모형 적합(model fitting)의 개념과 그 대표적인 기법인 최대 가능도 방법(the method of maximum likelihood)에 대해 알아볼 것임.

- 여기서 논의할 모형은 통계적 모형, 즉 1장에서 ‘확률종’라고 불렀던 것임.

• 주어진 확률 변수의 분포에 대한 가설로, (일련의) 모수를 가진 분포군으로 표현됨.
• 예) 열 번의 동전 던지기에서 나온 동전의 수 X는 이항 분포 P(X; θ)로 모델링할 수 있으며, 모수 𝜃는 동전이 나올 확률을 나타냄.

- 세미콜론(“;”)은 X의 분포가 모수 𝜃에 의해 결정된다는 것을 나타냄.

• 베이지안 틀에서 P(X; 𝜃)는 단순한 조건부 확률인 P(X|θ)로 읽을 수 있음.

110

- 모수(parameter)를 추정하기 위해 해당 값에 대한 몇 가지 가설을 세울 필요가 있음.

• 베이지안는 𝜃의 사전 분포를 가정하여 사후 분포를 계산함.
• 빈도주의자는 𝜃의 값에 대한 특정 가설(귀무 가설)을 세우고 가설의 타당성을 시험함.

- 여기서는 다른 접근 방식을 취하여 입증 작업 없이 현재 데이터에 매개 변수를 맞추는 것을 고려할 것임.

• 실제 확률 모형이 어떻게 생겼는지가 아니라, 관찰된 데이터를 가장 잘 “예측”할 수 있는 모수 값의 집합을 찾는 것임.

- 여기서 우리의 목표는 모형의 가능도(likelihood), 즉 주어진 확률종에서 데이터를 얻을 수 있는 확률을 최대화하는 모수 값을 찾는 것임.

110-111

- 동전을 던져서 열 번 던져서 앞면이 여섯 번 나왔다고 가정하자.(X = 6).

- 가능한 모수 값 0≤𝜃≤1 중에서 이 결과가 나올 가능성이 가장 높은 값, 즉 P(X=6; θ)의 확률을 최대화하는 값은 무엇인가?

- 이항 분포에서 가능도 P(X = 6; 𝜃)는 다음과 같이 주어짐.

₁₀C₆𝜃⁶(1-𝜃)⁴. (4.1)

[ p. 110, Figure 4.1 ]

• 그래프에서 𝜃=0.6 근처에서 가장 높은 확률에 도달하는 것으로 보이며, 이는 가능도 함수(방정식 4.1)를 미분하여 확인할 수 있음.

- 가능도 함수(방정식 4.1)를 최대화하려면 θ에 대해 미분하고 결과를 0으로 설정하면 됨.

𝜃⁵(1-𝜃)³(6-10𝜃) (4.2)

(여기서 ₁₀C₆는 모수를 포함하지 않는 상수이므로 무시했음.)

- 𝜃 = 0, 1, 0.6이면 0이 됨.

- 그래프가 0과 1에서 위쪽이 아닌 아래쪽에 닿는 것을 보면, θ=0.6에서 실제로 가능성이 최대화된다는 결론이 나옴.

• 즉, 동전 던지기 열 번 중 여섯 번의 결과를 가장 잘 수용하는 가설은 동전이 0.6의 확률로 앞면이 나온다는 가설임.

111

- 위와 비슷한 방식으로 모형에 여러 개의 모수가 있는 경우 모형의 가능성을 최대화하는 모수 쌍(tuple of parameters)을 찾을 수 있음.

- 이렇게 얻은 모수를 최대 가능도 추정법(maximum likelihood estimator) 또는 MLE라고 하며, 𝜃 hat으로 표시함.

- 모형 M의 최대 가능도를 ℓ(M)으로 표시함.

- 이 예에서는 이항 모형의 확률 함수를 최대화하여 이항 모형의 최대 가능도를 얻었지만(방정식 4.1), 일반적으로 확률 함수 자체가 아니라 로그 가능도(log likelihood)라고 부르는 로그 함수를 최대화하려고 함.

• 이는 계산 편의를 위한 것일 뿐이며(로그를 취하면 확률의 곱이 합이 되어 계산하기 쉬워짐), 이는 결과를 바꾸지 않음.
• 즉, 가능도를 최대화하는 모수는 로그 가능도도 최대화하며 그 반대도 마찬가지임.

- 모형의 최대 로그 가능도는 logℓ(M)으로 표시함.

111

- 목표 모형이 단순하다면, 가능도 함수를 미분하여 최대 (로그) 가능도를 쉽게 구할 수 있으나, 모형이 복잡하고 모수가 많으면 확률 가능도도 복잡해지는 경향이 있어 최대값을 찾기가 어려움.

• 확률 함수가 미분가능하더라도 관련 극한 문제를 해결하기 극도로 어려울 수 있음.
• 이 경우 가능도 함수를 단계별로 올라가면서 정점에 접근해야 함.

- 앞서 언급한 이항 사례로 이 절차를 설명한다면 다음과 같음.

• 출발점을 무작위로 선택함.
• 𝜃=0.4에서 시작할 경우, 이를 가능도 함수의 미분(방정식 4.2)에 대입하면 이 지점의 기울기를 알 수 있음.
• 결과는 (0.4)⁵(0.6)³(2) ~ 0.004. 기울기가 양수이고 오른쪽으로 상승함을 의미함.

• 𝜃 = 0.5까지 오른쪽으로 조금 올라간 다음, 새로운 지점에서 기울기를 계산함.
• 이러한 절차를 반복하면 확률 함수의 정점인 θ = 0.6에 도달하게 됨.

112

- 정상까지 직선으로 올라가는 것은 단일 정점이 있는 “후지산 모양”의 가능도 함수에서만 보장됨.

- 험준한 지형을 가진 복잡한 함수의 경우, 전역적 최적점의 기슭(foot)에서 출발할 만큼 충분히 운이 좋지 않으면 단계별 등반을 통해 국소적 최적점/정점에 도달할 가능성이 높음.

• 모형에 단 하나의 모수만 있으면 (𝜃축을 따라) 한 차원에서만 발생함.
• 모수가 n≥2인 경우 정복해야 할 산은 n차원 초곡면(hypersurface)이며, 각 단계에서 n 방향들에 따른 기울기를 확인해야 하므로 최대 가능도 추정법의 수치 검색이 훨씬 더 번거로워짐.

112

- 따라서 최대 가능도 방법은 관찰된 데이터를 가장 잘 수용하거나 “예측”하는 모형의 모수 값을 찾으려고 함.

- 모형 적합(model fitting): 특정 데이터 세트에 맞게 모형을 조정하는 것

• 최대 가능도 방법, 최소제곱법(least squares method) 등

- 적합 모형(fitted model): 특정 데이터 세트에 맞게 조정된 모형

- 어떤 방법이든 모형 적합 방법의 목표는 단순히 특정 데이터 세트에 모형을 맞추는 것일 뿐, 그 이상도 이하도 아니며, 어떤 방법을 쓰느냐가 모형의 정확성, 적합 모형이 실재를 포착하거나 근사한다는 의미를 조금도 내포하지 않음.

• 최대 가능도 방법은 더 일반적인 설정에서 해당 가설이 참인지에 주의를 기울이지 않고 어떠한 데이터 세트에 가장 잘 맞는 가설을 선택하기만 함.

- 이러한 점에서 최대 가능도 방법과 기타 모형 적합 방법은 이전 장에서 살펴본 베이지안 추정과 가설 검정 방법들과 목적과 성격이 다름.

4.2 Model Selection

4.2.1 Regression Models and the Motivation for Model Selection

112-113

- 일반적으로 회귀(regression)는 일련의 변수 X를 사용하여 다른 변수 Y의 값을 예측하거나 분류하는 방법임.

- 1장에서 소개한 회귀는 기술 통계(descriptive statistics)의 범위 내에서 과거 데이터를 요약하는 데 제한적으로 사용된 것임.

- 여기서 소개하는 것은 관찰된 것을 바탕으로 관찰되지 않은 것을 예측하는 것이며, 이는 추론 통계(inferential statistics)의 영역에 속함.

• 예) 키에서 몸무게를 유추하고, SAT 점수를 통해 대학 입학을 예측하고, 시각적 이미지에서 고양이와 같은 물체를 감지하는 것 등

113-114

- 설명 변수(explanatory variables): 회귀 모형에서 예측의 근거가 되는 변수

- 반응 변수(response variables): 예측 대상인 변수

- 두 개 이상의 설명 변수를 탐구할 수도 있음.

• 예) 대학 입학 예측에 SAT 점수뿐만 아니라 에세이 점수, 고등학교 성적 등 다른 요소도 고려할 수 있음.

- 설명 변수 집합은 벡터 𝑿 = (𝑋₁, 𝑋₂, ..., 𝑋ₙ), 값 𝒙 = (𝑥₁, 𝑥₂, ..., 𝑥ₙ)로 표현함.

설명 변수로 명시적으로 등록되지 않은 다른 여러 요소는 오차항(error term)으로 함께 묶음.

• 오차항 ϵ는 특정 분포를 따른다고 가정한 무작위 변수임.

- 회귀 모형은 설명 변수와 오차항의 함수로 반응 변수를 다음과 같이 기술함.

𝑦 = 𝑓(𝒙, ϵ).

- 회귀 문제의 목적은 투입값 x로부터 y를 잘 예측할 수 있는 f의 함수 형태를 결정하는 것임.

- 이는 함수 f의 일반적인 형태를 결정한 다음, 모수를 조정하여 세부사항을 해결함으로써 이루어짐.

- (모수적) 회귀 모형은 확률론적인 종류일 뿐임.

- 제일 단순한 선형 회귀 모형은 다음과 같은 형태임:

𝑦 = 𝑓(𝒙,ϵ;𝜽).
= 𝛽₁𝑥₁＋𝛽₂𝑥₂＋…＋𝛽ₙ𝑥ₙ＋ϵ

• 이는 반응 변수를 설명 변수와 오차항의 합으로 표현함.

- 이 모형의 모수 𝜃는 각 설명 요소의 상대적 중요성을 측정하는 회귀 계수 𝛽₁𝑥₁, 𝛽₂, ...와 무작위 오차항 ϵ의 분포를 결정하는 모수임.

• 예) 오차항이 정규 분포를 따르면 모수는 평균 𝜇와 분산 𝜎²가 될 것임.

- 이 경우 평균 𝜇는 회귀선(regression line)의 y절편을 결정하고 분산 𝜎²는 회귀선 주변의 데이터 분산을 나타냄.

- 𝑓(𝒙,ϵ;𝜽)는, 회귀 모형 𝑓가 모수 𝜽에 의해 완전히 특정되며, 이 함수를 통해 특정 입력값 𝒙가 주어질 때 반응 변수의 분포가 결정된다는 사실을 표현함.

114

- 회귀 모형은 모수적 통계 모형, 즉 확률적 모형에 불과하므로 이전 장에서 살펴본 전통적인 추론 통계 접근 방식을 사용하여 모수를 추정하고 이를 예측에 사용할 수 있음.

- 베이지안 접근법에서는 데이터에서 각 모수에 대한 사후 분포를 계산한 다음 사후 예측 분포를 도출할 수 있음(1.2.3절).

- 빈도주의자는 각 회귀 계수가 0과 유의미하게 다른지 시험하거나 신뢰 구간을 계산할 수 있음.(이 책에서는 다루지 않음)

- 최대 가능성 방법을 사용하면 상황이 훨씬 더 간단해짐.

• 이 경우 관찰된 데이터의 확률을 최대화하는 𝜽 hat = (𝛽 hat 1, ... , )를 구함.

- 확률종의 모수가 고정되면 X와 Y의 공동 분포도 고정되므로 그 값의 확률을 계산할 수 있으며, 이 확률을 사용하여 Y를 예측할 수 있음.(2.3.2절)

114

- 이러한 모든 절차는 특정 확률종/회귀 모형을 데이터 생성 과정으로 가정하고, 예측을 위해 해당 확률종을 정확하게 식별하는 것을 목표로 함.

- 대학 입학 예측을 위해 SAT 점수만 사용하는 모형과 에세이 점수, 고등학교 성적 등을 포함하는 모형을 고려할 수 있다면, 이 중 어떤 모형을 선택해야 하는가?

- 모형 선택 이론은 이 질문에 답하는 것을 목표로 함.

• 예측 성능에 따라 여러 확률종 또는 모형 중 하나를 선택하는 기준을 제공함.

4.2.2 A Model’s Likelihood and Overfitting

114-115

- 이 절에서는 모형 선택의 개념을 설명하며, 특히 아카이케의 정보 기준 이론(Akaike 1974)을 중점적으로 설명함.

- 두 가지 선형 회귀 모형을 고려해 보자.

𝑀₁ : 𝑦 = 𝛽₁𝑥₁＋ϵ, ϵ ~ 𝑁(𝜇₁, 𝜎²₁) (4.3.)

와

𝑀₂ : 𝑦 = 𝛽₁𝑥₁＋𝛽₂𝑥₂＋ϵ, ϵ ~ 𝑁(𝜇₂ 𝜎²₂) (4.4.)

• ϵ ~ 𝑁(𝜇, 𝜎²)는 오차항 ϵ이 평균 𝜇, 분산 𝜎²의 정규 분포를 따른다는 의미임.

- 𝑀₁의 모수를 𝜃₁ = (𝛽₁, 𝜇₁, 𝜎²₁)로, 𝑀₂의 모수를 𝜃₁ = (𝛽₁, 𝛽₂, 𝜇₂, 𝜎²₂)로 표시하자.

• 예) 대학생의 학점 Y를 예측하는 모형으로 해석하면, 𝑀₁은 SAT 점수 𝑋₁만을 설명 변수로 사용하고 𝑀₂는 고등학교 성적 𝑋₂도 고려함.

115

- 이 중 어떤 것을 예측에 사용할지 어떻게 결정할 수 있을까?

- 방법(1): 이러한 모형이 데이터를 어떻게 예측하는지 비교하는 것

• 즉 최대 가능도 ℓ(𝑀₁)과 ℓ(𝑀₂)를 비교하는 것
• 데이터 𝒅 = (𝒙₁, 𝒙₂, 𝒚)가 있다면, 최대 가능도 방법을 적용하여 모형 𝑀₁과 𝑀₂의 가능도를 각각 최대화하는 MLE 𝜃 hat 1과 𝜃 hat 2를 구할 수 있음.
• 이는 우리가 다음을 비교할 수 있게 허용함.

• 가능도는 모형이 데이터를 얼마나 잘 수용하는지를 측정하기 때문에 가능도가 높은 모형을 더 나은 모형으로 선택하는 것이 합리적임.

115

- 그러나 이 전략은 효과가 없음.

- 데이터가 무엇이든 𝑀₁의 가능도는 𝑀₂의 가능도를 초과하지 않으므로 항상 ℓ(𝑀₁)≤ℓ(𝑀₂)가 되므로 비교하는 것 자체가 무의미함.

• 이는 𝑀₁이 𝑥₂가 없는 𝑀₂의 특수 사례이기 때문임.

- 일반적으로 𝑀₁과 𝑀₂ 같은 내포 모형(nested model)의 경우, 모수가 더 많은 더 복잡한 모형은 데이터를 수용하는 데 더 많은 자유도를 가지므로 항상 더 낫거나 적어도 동등하게 좋은 가능도를 가짐.

- 가능도를 비교하는 한, 우리는 항상 더 복잡한 모형을 선호하게 됨.

115

- 모형의 가능도와 예측 성능(predictive performance) 사이에는 직접적인 관계가 없음.

• 이는 여기서 가장 중요한 부분임.

- 가능도는 특정 가설/모형의 가정 하에 주어진 데이터를 얻을 수 있는 확률을 말하며, 모형이 관찰된 내용을 얼마나 잘 이해하는지를 측정함.

- 예측은 아직 관찰되지 않은 데이터에 대해 모형이 무엇을 알려줄 수 있는지에 관한 것임.

- 과거를 잘 수용한 모형이 반드시 미래를 위한 최선의 지침이 되는 것은 아님.

- 자연의 일양성을 가정하더라도 모형을 데이터에 정확하게 맞추는 것이 항상 좋은 생각은 아님.

- 과적합(overfitting): 확률론적 과정으로부터 얻은 데이터 세트에는 반드시 산발적인 노이즈가 포함되는데, 이 때문에 주어진 데이터를 잘 수용한 복잡한 모형도 이러한 노이즈에 적합하게 되는 것

• 이는 관측되지 않은 데이터를 예측하는 모형의 능력을 손상시킬 수 있음.

- 과적합을 피하려면 모형의 예측 능력을 평가하기 위한 또 다른 기준이 필요함.

4.2.3 Akaike Information Criterion

115-116

- 이 문제에 대한 아카이케의 접근 방식은 모형의 가능도에서 평균 가능도(더 정확하게는 평균 로그 가능도)로 눈을 돌리는 것임.

- 중요한 것은 모형이 실제 데이터를 얼마나 잘 수용하는지가 아니라 아직 관찰되지 않은 데이터를 얼마나 잘 예측하는지임.

- 예측 능력을 측정할 아이디어 중 하나는, 비슷한 데이터 세트를 사용하여 반복적으로 예측할 경우 우리가 얻을 모형의 평균 예측 성능을 고려하는 것임.

• 각 예측 성능을 가능도로 측정한다면, 이는 모형의 평균 가능도를 평가하는 것임.

116-117

- 예시: 𝑀₁을 반복 사용하여 유사한 예측을 수행(그림 4.2 참조)

• 𝑀₁을 특정 연도의 대학생 1000명의 데이터에 맞춤. 즉 모수의 MLE를 계산
• 적합 모형을 M hat 1로 표시함.
• M hat 1의 모수가 완전히 특정되었으므로 새로운 데이터를 예측하는 데 사용할 수 있음.
• 다음 해에 또 다른 대학생 1000명에 대한 데이터를 수집하고 이 새로운 데이터를 사용하여 적합 모형의 가능도를 계산함.
• 이러한 절차를 무한정 반복한다고 가정함.
• 이론적으로 무한히 많은 기간에 걸쳐 모형의 가능성을 평균화하면 적합 모형 의 평균 가능도를 구할 수 있음.

- 여기서 계산한 것은 첫 해에 우연히 관찰한 특정 데이터 세트에 모형 𝑀₁을 조정하여 얻은 적합 모형 M hat 1의 평균 예측 성능임.

- 초기 데이터 세트에는 약간의 무작위성이 포함되므로, 특정 결과가 M1의 예측 성능을 정확하게 측정한다고 보장할 수 없음.

- 따라서 다양한 초기 데이터 세트를 사용하여 전체 피팅 절차를 반복함으로써 초기 변동성도 평균화해야 함. 이렇게 하면 결국 모형 𝑀₁의 평균 가능도를 얻을 수 있음.

117-118

- 평균 가능도를 도출하려면 동일한 모형으로 무한히 많은 예측을 하고 그 결과에 대한 기대값을 상상해야 하지만, 이러한 작업을 실제로 수행할 수 없음.

- 그러나 이 또한 일반적인 다른 모수와 마찬가지로 현재 데이터를 통해 추정할 수 있음.

- 아카이케는 특정 가정 하에서 모수가 k인 모형의 평균 로그 가능도의 추정치를 다음과 같이 주어짐을 보여줌.

logℓ(𝑀)－k

- 이는 두 가지 요소가 모형의 평균 예측 성능에 영향을 미친다는 것임.

- 요소(1): 모형의 최대 로그 가능도 logℓ(M)

• logℓ(M)는 모형 M이 현재 데이터를 얼마나 잘 수용하는지를 표현함.
• 모형이 복잡해질수록 이 항은 증가하며 예측 성능에 긍정적으로 기여함.

- 그러나 이러한 값은 특정 데이터 집합을 기준으로 계산되기 때문에 새로운 데이터로 계산할 때 동일한 모형이 똑같이 좋은 점수를 받을 것이라는 보장은 없음.

• 실제 가능도는 모형의 평균 예측 성능을 과대평가하므로 이를 낮추어야 함.

- 요소(2): -k를 통한 보정(correction)

• 보정은 모형의 모수 수를 나타내는 k에서 옴. 복잡한 모형에는 k가 커짐.
• k 앞에 마이너스 기호가 붙는 것은 k가 너무 크면 예측 성능이 저하된다는 의미임.
• 이 항은 모형의 복잡성에 패널티를 부과함.

- 결과적으로 모형의 평균 로그 가능도는 복잡성에 따른 데이터 수용 능력과 복잡성에 따른 페널티 사이의 균형에 따라 결정됨.

• 𝑀₁과 𝑀₂의 경우 logℓ(𝑀₁)≤logℓ(𝑀₂)이므로 요소(1)은 𝑀₂에 유리함.
• 𝑀₂는 k=4인 반면 𝑀₁은 k=3에 불과하므로 요소(2)는 𝑀₁에 유리함.
• 따라서 𝑀₂에 추가 모수를 도입했을 때 추가 모수에 가해지는 페널티를 벌충할 만큼 가능도가 높아진다면 𝑀₂가 궁극적으로 𝑀₁을 궁극적으로 능가하게 됨.

118

- 아카이케의 틀은 중첩되지 않은 모형이나 다른 분포 군의 상대적 예측 성능도 효과적으로 예측함.

• 일반적으로 평균 로그 가능도에 –2를 곱하면 다음과 같이 됨.

－2(logℓ(𝑀)－k)

- 이는 현재 아카이케 정보 기준(또는 AIC)라고 불리며 모형의 예측 성능을 평가하는 데 사용됨.

- AIC는 특정 가정 하에서 모형의 예측과 실제 확률 모형에서 가져온 무작위 샘플 간의 (소위 쿨백-라이블러 발산으로 측정된) 평균 불일치에 관한 편향되지 않은 추정치를 제공함(Konishi and Kitagawa 2008).

- 따라서 AIC가 더 작은 모형은 실제 샘플링 결과와 평균적으로 편차가 적다는 점에서 더 나은 예측을 제공할 것으로 기대할 수 있음.

4.2.4 Philosophical Implications of AIC

118

- AIC 이론의 통찰, 즉 모수가 너무 많으면 모형의 예측 성능을 저하시킬 수 있다는 점은 다소 역설적인 의미를 내포함.

- 전통적인 추론 통계의 틀에서, 통계적 추론은 데이터 생성 과정을 특정 확률종(통계 모형)로 모델링한 다음, 데이터로부터 세부사항을 지정하여 관찰되지 않은 표본을 예측하는 방식으로 진행됨(그림 1.2 참조).

• 여기서는 전제된 확률종가 실제 데이터 생성 프로세스에 더 정확하게 근접할수록 예측이 더 정확해질 것이라고 기대할 수 있음.

- AIC의 이론은 그러한 기대가 반드시 실현되는 것은 아님을 시사함.

- 이를 확인하기 위해 반응 변수 Y가 두 설명 변수 𝑋₁, 𝑋₂의 영향을 받는다고 가정하자.

• 즉 𝑀₂(방정식 4.4)가 근본 확률 모형을 참되고 완전하게 제공한다고 가정함.

- 𝑋₂의 영향이 𝑋₁의 영향보다 훨씬 작으므로 𝛽₁≫𝛽₂ ≈ 0이라고 추가로 가정하자.

• 방정식 (4.4)에서와 같이 모형에 요소 𝑋₂를 추가해도 로그 가능도가 높아지지 않음.
• 증가가 1보다 작으면 설명 변수 𝑋₁가 하나만 있는 모형 𝑀₁(방정식 4.3)의 AIC 점수가 더 작아서 더 나은 예측을 하는 것으로 판단할 수 있음.

- 이는 (가정에 따라) 모형 𝑀₁이 실제 요소 𝑋₂를 간과하여 실제 데이터 생성 과정으로부터 𝑀₂보다 더 멀리 떨어져 있는 경우에도 마찬가지임.

- 따라서, AIC는 근본 확률 모형을 충실히 기술하는 “참인” 통계 모형이 일부 요소를 생략하여 실재를 “왜곡”하는 모형보다 예측에서 더 나쁠 가능성이 있음을 나타냄.

119

- 참에서 벗어난 모형이 더 나은 예측을 할 수 있다는 결론은 역설적으로 들릴 수 있지만, 이는 역설이라기보다는 모형이나 자연에 기반한 모든 종류의 과학적 추론에 공통으로 나타나는 일반적인 특징임.

- 우선, 적절한 이상화와 단순화는 모든 과학적 탐구의 일부이자 필수 요소임.(Cartwright 1983)

- 이 세상의 것을 개별 자연종으로 분류하는 것은 이미 개별적인 세부사항을 추상화하는 것이며, 그런 의미에서 실재를 왜곡하는 것임.

- 그러나 이러한 추상화가 귀납적 추론을 가능하게 함.

• 예) “나에게 독성이 있는 것은 다른 사람에게도 독성이 있을 것이다.”
• 우리가 이런 종류의 거친 범주화를 인정하지 않고 모든 인간을 별개의 존재로 간주한다면, 우리는 다른 사람의 경험에서 아무것도 배울 수 없게 될 것임.

- 따라서 귀납적 추론을 수행하려면 특정 수준의 세분성에서 사물을 식별하고 그 아래의 모든 특성을 무시해야 함.

- 확률종을 사용한 통계적 추론도 마찬가지임.

- 동일한 데이터 생성 과정을 모수 개수가 다른 여러 모형으로 기술할 수 있음.

- 어떤 확률종을 사용할 것인지에 대한 질문은 인간을 어느 정도의 세분성으로 기술해야 하는지에 대한 질문과 비슷함.

• 예) “생물”, “동물”, “포유류”, “호모 사피엔스”, “중년 남자” 등

- 불필요하게 꼼꼼한 자연종이 귀납적 추론에 도움이 되지 않는 것처럼, 너무 상세한 확률종은 효과적인 예측을 제공하지 못함.

- AIC는 이를 평균 로그 가능성 측면에서 명시하고 장기 예측 성능의 추정을 통해 적절한 세분성을 확률적으로 알려줌.

119-120

- 이것은 1장에서 소개한 통계적 존재론을 다시 생각하게 함.

- 앞서 언급했듯이, 확률종 또는 자연종은 일반적으로 과학자들이 자연을 조각하는 기본적인 존재론적 단위를 제공함.(1.2.4절)

- 이러한 자연종은 종종 계층 구조를 형성함.

• 예) 생태학적 자연종의 사례인 인간은, 세포와 기타 생리종으로 구성되며, 이는 분자, 원자 등의 화학종으로 구성되고, 이는 양성자, 전자 등의 물리종으로 구성됨.

- 낮은 수준의 종은 높은 수준의 종을 구성하고 실재에 대한 세밀한 기술을 포함함.

- 자연에 존재하는 모든 개체가 물리적 요소로 구성된다면, 모든 것은 물리종으로만 기술될 수 있어야 함.

- 그렇다면 왜 우리는 “나무”나 “새”와 같은 느슨하고 거칠게 분류된 자연종을 단순히 다양한 방식으로 응축된 입자의 구름으로 간주하지 않고 여전히 관심을 가지는 것인가?

- 더 높은 수준의 자연종이 세상에 대한 모호하고 부정확한 기술이더라도 설명과 예측에서 중요한 역할을 하기 때문임.

• 예) 나는 이웃집 나무에 둥지를 튼 새를 제비로 식별하여 가을에 제비가 떠날 것을 예측할 수 있었지만, 원자 수준에서는 비슷한 예측을 할 수 없음.

- 우리가 일상적으로 하는 모든 추론은 세상의 일부를 구분하고 특정 범주에 포함시킴으로써 가능하게 됨.

- 데넷은 우리가 자연으로부터 만들어낸 이러한 범주를 실재 패턴(real patterns)이라고 부름.

• 예) 제비, 귀금속 등
• 자세히 들여다보면 이러한 것들은 잡음과 예외가 섞인 매우 거친 일반화일 수 있음.
• 그렇더라도 미래를 예측하는 데 도움이 되는 한 그러한 것들은 실재하며, 이런 의미에서 그들은 진짜 존재자로 여겨질 권리가 있음.

120

- 통계에서 일부 확률종은 기존의 자연종과 마찬가지로 계층 구조를 형성함.

• 두 변수 사이의 동일한 관계를 선형 회귀 모형을 사용하여 모델링할 수도 있고, 부드러운 곡선을 수용하는 다항식 모형을 사용하여 모델링할 수도 있음.
• 후자의 경우 훨씬 더 나은 해상도와 정밀도로 관계를 기술할 수 있음.

- 우리의 목표가 자연의 일양성을 충실하게 재생산하는 것이라면, 자유도가 높은 복잡한 모형을 선호해야 함.

- 그러나 예측이 목표인 경우, 너무 세분화된 모형은 샘플링과 추정 과정에 내재된 무작위 노이즈 때문에 거친 모형보다 성능이 떨어질 수 있음.

- AIC의 목표는 적절한 세분성을 가진 모형을 식별하는 것, 즉 데이터에서 실재 패턴을 찾아내는 것임.

- 여기서 “실재”의 두 가지 의미에 주목할 것.

• 의미(1): 데이터 생성 과정을 잘 근사화하는 모형(즉, 확률 모형)이 실재
• 의미(2): 관찰되지 않은 사례를 예측하는 데 기여하는 패턴을 실재라고 간주해야 함.

120-121

- 이러한 두 가지 존재론적 태도를 구별하면 AIC가 무엇이고 무엇이 아닌지 이해하는 데 도움이 됨.

• 주장(1): AIC의 목적은 참인 모형을 선택하는 것이 아님.(Kasuya 2015)
• 주장(2): 참인 분포로부터 모형의 (예상) 거리를 측정하는 것임.(Leeow 1992; Ponciano and Taper 2019).

- “실재”의 이중적 의미를 고려하면 명백히 상충되는 생각도 이해할 수 있음.

• 주장(1)에서 “참인”이라는 단어는 주어진 관측치를 생성하는 확률 모형을 충실하게 재구성하는 것을 의미하며, 이는 확실히 AIC의 목표가 아님.
• 주장(2)에서 “거리”는 주어진 통계 모형의 예측과 참인 분포에서 가져올 미래 표본 사이의 불일치, 즉 고려중인 모형이 다른 시간과 장소에서 우리가 인식한 패턴에서 벗어나는 정도를 나타냄(그림 4.3).

- 따라서 AIC는 실제 패턴의 의미에서 통계 모형의 실재성을 평가하고, 이를 통해 통계에 “실재”라는 대안적인 의미를 부여함.

- 대안적인 존재론이 통계 추론의 원래 목적에 더 부합한다고 주장할 수도 있음.

- 1장에서는 확률 모형을 추론 통계의 기본 존재론적 가정으로 설명했는데, 왜 데이터 외에 추가적인 존재자를 도입해야 했는가?

- 자연의 일양성이라는 가정 없이는 귀납적 추론이 불가능하기 때문임.

• 이는 처음 도입 동기부터 통계에서 '실체'의 개념적 기능은 기술적(즉, 데이터 생성 과정을 있는 그대로 기술하는 것)이 아니라 도구적(성공적인 예측을 하는 것)임을 시사함.
• 존재자를 확률적인 특정 형태로 깎기로 결정할 때 예측에 대한 존재자의 기여도가 주요 기준이 되는 것은 당연함.

- AIC는 확률종의 실재 패턴의 실재를 평가하는 방법을 제공함으로써 이 발상을 구체화함.

121-122

- 이러한 논의의 이면에는 통계의 본질과 목표, 과학 전반에 관한 더 깊은 질문이 숨어 있음.

- 과학에 대한 대중적인 이미지는 세상을 있는 그대로 가장 세세한 부분까지 밝혀내는 것을 목표로 한다는 것임.

• 과학의 기본 개념 단위인 자연종은 세계를 구성하는 요소들이 실제로 어떤 모습인지 포착해야 함.
• 이상적인 과학적 존재론은 실제 세계를 아주 미세한 부분까지 재생산할 수 있어야 함.
• 이러한 방식으로 세상의 구조를 파악하여 과학은 세상의 현상을 설명할 수 있음.

- 과학을 바라보는 또 다른 관점은, 세계가 실제로 어떻게 존재하는지보다는 앞으로 어떻게 될 것인지, 즉 성공적인 예측을 하는 것을 주요 목표로 삼음(van Fraassen 1980).

• 베이컨의 “아는 것이 힘이다”(scientia potentia est)는 과학의 예측력을 가리킴.
• 베이컨의 사고 방식을 따르자면, 과학적 존재론의 목표는 세계의 충실한 복제품을 만드는 것이 아니라 적절한 추상화와 단순화를 통해 실재 패턴을 식별하는 것이며, 이는 일종의 실용주의로 이어짐(Sober 2008).
• 윌리엄 제임스는 우리 생각과 외부 세계의 대응이라는 전통적인 참 개념을 참은 우리에게 도움이 되는 믿음에 불과하다는 새로운 진리 이론으로 대체해야 한다고 주장함.
• 이런저런 것이 존재한다는 주장은 그러한 믿음이 특정 목적에 기여하는 경우에만 참으로 판단되며, 우리의 맥락에서는 예측이라고 할 수 있음.

• 참인 관념이 참이기 때문에 우리의 추론을 이끄는 것이 아니라, 귀납적 추론을 용이하게 하는 관념은 자연적 또는 확률종으로 존재하는 것으로 인정됨.
• 실용주의 과학적 존재론은 존재와 인식의 관계를 뒤집음.

122-124

- 여기서 주목할 점은 무엇이 유용한지 판단하는 기준은 상황에 따라 달라진다는 점임.

- 현재 예측의 맥락에서 AIC가 추천하는 모형은 무엇보다도 예측을 수행할 수 있는 데이터의 크기에 따라 달라짐(그림 4.4).

• 데이터 크기가 커질수록 모형의 로그 확률의 절대값이 증가함. 즉, 모수 수에 대한 패널티가 줄어들어 더 복잡한 모형에 유리한 쪽으로 균형이 기울어짐.

- 데이터 세트가 작을수록 간결한 모형을 선호하는 경향이 있음.

- 따라서 어떤 확률종이 실재 패턴으로 선택되는지는 세계의 객관적인 특징뿐만 아니라 사용가능한 데이터의 크기라는 실용적인 요소에 따라 달라짐.

- 이러한 특징 때문에, AIC는 통계적 일관성이 부족하다는 비판을 받기도 했음.

- 데이터 크기가 무한대에 가까워질수록 실제 값에 수렴하는 경우 추정치는 일관성이 있다고 말함.

• 베이지안 추론은 표본 크기가 무한히 증가함에 따라 사후 확률이 실제 분포에 수렴한다는 점에서 일관성이 있음(2.3.3절 참조)
• 같은 맥락에서 베이지안 모형 선택 기준(소위 BIC)은 점근적으로 실제 모형을 선택한다는 점에서도 일관성이 있음.

- 이는 앞서 설명한 이유 때문에 데이터 세트가 무한히 큰 경우에도 데이터 생성 과정을 충실히 포착하는 모형을 선택하지 않는 AIC와는 대조적임(Sober 2008).

- 그러나 예측에 기여하는 실제 패턴을 식별하는 것이 AIC의 목적이라는 점을 고려하면 이는 문제가 될 것이 없음.

• 모든 예측은 제한된 데이터 소스를 기반으로 이루어져야 하므로, 개가 실제 냄새로 인식하는 패턴과 인간이 식별하는 냄새 패턴이 다를 수 있는 것처럼 ‘실재’로 간주되는 패턴은 사용자가 사용할 수 있는 데이터의 양에 따라 달라져야 함.
• 개의 관점에서 본다면, 인간의 열악한 후각으로 냄새를 맡을 수 있는 패턴은 매우 거친 것이겠지만, 오늘의 저녁 식사를 예측하는 데 도움이 된다면 애플 파이의 냄새는 실재 패턴임.

- 실제 냄새로 간주되는 냄새 패턴이 인지자(개 또는 사람)가 보유한 후각 세포의 수에 따라 달라진다면, 실제 냄새로 간주되는 확률종도 인지자가 보유한 데이터의 양에 따라 달라지는 것은 당연함.

- 이러한 정신으로 AIC는 제한된 자원을 바탕으로 미래를 예측한다는 실용적인 목표에 따라 세계를 개척해 나가고 있음.

- 이러한 종류의 실용적 존재론은 또한 인식자마다 다른 실제 패턴이 나타날 가능성을 내포함.

- 어떤 의미에서 예측 문제와 반대되는 접근 방식을 취하는 딥러닝을 검토한 후에 이 존재론적 상대성을 다시 살펴볼 것임.

(2024.04.18.)

.

2024/04/16

[통계학의 철학] Jun Otsuka (2023), Ch 4 “Model Selection and Machine Learning” 요약 정리 (미완성)

댓글 없음:

댓글 쓰기

[프라임 LEET] 2026학년도 대비 LEET 전국모의고사 안내