Bias–Variance–Noise Tradeoff: 열린계에서의 MSE 분해

Abstract

고전적 bias–variance–noise 분해는 닫힌계(stationary 환경)를 전제한다. 본 문서는 조건부 기댓값(conditional expectation)을 출발점으로 삼아, 열린계(open system)에서 발생하는 구조적 이동(structural drift), 상태 미명세(state misspecification), 시변 잡음(time-varying noise) 을 체계적으로 MSE 분해에 통합하는 확장된 프레임워크를 제시한다.

1. 서론: 문제의 설정

조건부 기댓값과 최적 예측 함수

입력 $X_t$ , 출력 $Y_t$ 에 대해 시점 $t$ 에서의 최적 예측 함수(MSE 기준)는 다음과 같이 정의된다.

f_t(x) := \mathbb{E}[Y_t \mid X_t = x]

이는 임의의 추정기 $g$ 에 대해 다음을 만족한다.

\arg\min_g \; \mathbb{E}[(Y_t - g(X_t))^2] = f_t(x)

열린계에서의 데이터 생성

현실의 데이터 생성 과정은 다음과 같이 기술된다.

Y_t = f_t(X_t) + \varepsilon_t

$\mathbb{E}[\varepsilon_t \mid X_t] = 0$
$\mathrm{Var}(\varepsilon_t \mid X_t = x) = \sigma_t^2(x)$

열린계에서는 다음이 모두 시변(time-varying)이다.

$f_t$ : 구조 변화(regime shift)
$P(X_t)$ : 상태변수 분포 변화(covariate shift)
선택된 feature set 자체의 불완전성

1.3 실제 예측 상황

과거 데이터로 학습된 추정 함수는 다음과 같다.

\hat{f}(x) \approx f_{\text{train}}(x)

이를 미래 시점 $t$ 에서 예측에 사용한다.

\hat{Y}_t = \hat{f}(X_t)

2. 고전적 MSE 분해 (닫힌계)

예측 MSE의 정의

특정 입력 $x$ 에서의 예측 오차는 다음과 같다.

\mathrm{MSE}(x) = \mathbb{E}\left[(Y - \hat{f}(x))^2 \mid X = x\right]

분해 과정

$Y = f(x) + \varepsilon$ 를 대입하면:

= \mathbb{E}\left[(f(x) - \hat{f}(x) + \varepsilon)^2\right]

전개 후 $\mathbb{E}[\varepsilon \mid X = x] = 0$ 조건을 적용하면 교차항이 소거된다.

= \mathbb{E}[(f(x) - \hat{f}(x))^2] + \sigma^2

Bias–Variance 분해

첫 번째 항에 $\mathbb{E}[\hat{f}(x)]$ 를 가감하면:

\mathbb{E}[(f(x) - \hat{f}(x))^2] = \mathrm{Var}(\hat{f}(x)) + \mathrm{Bias}(\hat{f}(x))^2

최종 결과 (고전적)

\boxed{\mathrm{MSE}(x) = \mathrm{Var}(\hat{f}(x)) + \mathrm{Bias}(\hat{f}(x))^2 + \sigma^2}

Variance: 데이터 샘플에 따라 $\hat{f}$ 가 흔들리는 정도
Bias²: 평균적으로 $f(x)$ 와의 체계적 차이
$sigma^2$ : 어떤 모델을 써도 줄일 수 없는 본질적 잡음(irreducible noise)

3. 열린계로의 확장

기준 함수의 도입

훈련 분포에 기반한 조건부 기댓값을 기준으로 정의한다.

f_{\text{train}}(x) := \mathbb{E}[Y \mid X = x \;(\text{train dist})]

Out-of-Sample MSE

\mathrm{MSE}_t(x) = \mathbb{E}[(Y_t - \hat{f}(x))^2 \mid X_t = x]

$Y_t = f_t(x) + \varepsilon_t$ 를 대입하고, 교차항 소거 후:

= \mathbb{E}[(f_t(x) - \hat{f}(x))^2] + \sigma_t^2(x)

핵심 분해: Structural Drift 분리

$f_{\text{train}}(x)$ 를 가감하여 오차를 두 원천으로 분리한다.

f_t(x) - \hat{f}(x) = \underbrace{(f_t(x) - f_{\text{train}}(x))}_{\text{structural drift}} + \underbrace{(f_{\text{train}}(x) - \hat{f}(x))}_{\text{estimation error}}

제곱 전개

\mathbb{E}[(f_t - \hat{f})^2] = \underbrace{\mathbb{E}[(f_{\text{train}} - \hat{f})^2]}_{\text{bias-variance}} + \underbrace{(f_t - f_{\text{train}})^2}_{\text{structural shift}} + \underbrace{2(f_t - f_{\text{train}})\mathbb{E}[(f_{\text{train}} - \hat{f})]}_{\text{interaction (}\neq 0\text{)}}

교차항은 일반적으로 0이 아니다.

확장된 MSE (최종)

\boxed{\mathrm{MSE}_t = \underbrace{\mathrm{Var}(\hat{f})}_{\text{estimation}} + \underbrace{\mathrm{Bias}^2}_{\text{approximation}} + \underbrace{(f_t - f_{\text{train}})^2}_{\text{structural drift}} + \underbrace{\sigma_t^2}_{\text{noise}} + \underbrace{\text{interaction}}_{\neq 0}}

4. 각 오차 항의 재해석

Bias² — 구조적 오차

모델이 $f(x)$ 를 얼마나 잘 근사하는가
열린계에서는 $f_t$ 자체가 시간에 따라 변하므로, bias는 단순한 모형 단순성 문제가 아니라 모형 misspecification + 구조 변화 대응 실패를 반영한다
static bias보다 adaptive bias가 중요

Variance — 추정 불안정성

데이터 샘플에 따라 모델이 흔들리는 정도
금융 데이터처럼 noise가 크고 signal이 약한 환경에서 variance 폭발 위험이 존재
regularization, ensemble 등으로 관리

Structural Drift — 구조적 이동

f_t(x) - f_{\text{train}}(x)

가장 큰 OOS(out-of-sample) error의 원인
regime shift, 정책 변화, 시장 참여자 행동 변화 등에 의해 발생
online learning, adaptive model로 대응

Irreducible Noise의 재해석

고전적 해석에서 $\sigma^2$ 는 "줄일 수 없는 자연 잡음"이지만, 열린계에서는 본질적으로 다르다.

$\sigma^2 \neq \text{constant}$ : 시변적이고 상태 의존적(time-varying, state-dependent)
volatility clustering, regime switching 등의 구조를 내포
실제로 $Y_t = f_t(X_t, Z_t)$ 이며, 숨겨진 상태 $Z_t$ 의 존재가 irreducible noise처럼 관측됨

핵심 통찰:

\boxed{\text{Irreducible noise} \;\approx\; \text{Unobserved state} + \text{Model misspecification}}

즉 "줄일 수 없는 잡음"의 상당 부분은 현재 미모델링된 신호(currently unmodeled signal) 이다.

Interaction Term — Drift와 Estimation Error의 상호작용

교차항의 구조는 다음과 같다.

2(f_t(x) - f_{\text{train}}(x)) \cdot \mathbb{E}[f_{\text{train}}(x) - \hat{f}(x)]

이 항은 두 요소의 곱이다.

첫 번째 인자: structural drift의 크기와 방향
두 번째 인자: 추정 함수의 체계적 편향(bias)의 크기와 방향

부호와 크기에 대한 직관:

drift와 bias가 같은 방향일 때 (예: 둘 다 과대추정), 교차항은 양수 → 오차가 단순 합산보다 더 커진다
drift와 bias가 반대 방향일 때, 교차항은 음수 → 우연히 오차가 상쇄되는 "행운"이 발생할 수 있다
그러나 이 상쇄는 체계적이지 않으며, 다음 regime에서는 반대로 작용할 수 있다

교차항이 특히 커지는 조건:

급격한 regime shift 직후: drift가 크고, 모델의 bias도 아직 교정되지 않은 상태
과적합된 모델 + 구조 변화: variance는 낮지만 bias가 특정 방향으로 고정되어 있어 drift와 공명
느린 적응(slow adaptation): online learning의 학습률이 낮아 bias가 오래 잔존하는 경우

실무적으로 교차항을 무시하면 OOS 성능의 비대칭적 악화 (특정 regime에서만 급격히 나빠지는 현상)를 설명할 수 없다.

5. 금융 시장에서의 구체적 사례: Worked Example

설정: 주식 수익률 예측 모형

2005–2007년 데이터로 선형 팩터 모형을 학습했다고 가정한다.

\hat{f}(x) = \beta_0 + \beta_1 \cdot \text{Momentum} + \beta_2 \cdot \text{Value} + \beta_3 \cdot \text{Size}

이 모형을 2008년 금융위기 시점에 적용할 때 발생하는 오차를 분해한다.

각 오차 항의 실현

Bias² (구조적 오차)

선형 모형은 팩터 간 비선형 상호작용을 포착하지 못함
위기 시 momentum과 value의 관계가 비선형적으로 반전됨
훈련 기간의 $f_{\text{train}}(x)$ 자체가 $f_t(x)$ 의 좋은 근사가 아님

Variance (추정 불안정성)

2005–2007년은 상대적으로 낮은 변동성 기간
이 기간의 데이터로 추정된 $\hat{\beta}$ 는 좁은 신뢰구간을 가지지만, 이는 거짓 정밀성(false precision)
다른 3년 구간을 선택했다면 완전히 다른 $\hat{\beta}$ 가 나왔을 것

Structural Drift (구조적 이동)

2008년 9월 Lehman Brothers 파산 이후: 유동성 프리미엄 급등, 상관관계 구조 붕괴, 팩터 수익률 역전
$f_{2008}(x)$ 와 $f_{\text{train}}(x)$ 의 괴리가 모든 오차 항 중 가장 큼
이것이 OOS 실패의 지배적 원인

Irreducible Noise → 숨겨진 구조

훈련 기간의 "잡음"으로 보였던 것 중 상당 부분이 실은 유동성 상태, 신용 스프레드, 시장 참여자 포지셔닝 등 미포함 변수의 영향
$Z_t$ = (VIX, TED spread, 레버리지 비율) 등을 추가하면 "irreducible" noise의 일부를 설명 가능

Interaction Term (교차항)

모형의 bias 방향: momentum 팩터에 대해 양의 계수 (상승장 학습)
drift 방향: 2008년 momentum crash로 실제 관계가 음으로 전환
bias와 drift가 반대 방향 → 교차항이 일시적으로 음수
그러나 2009년 회복기에 momentum이 다시 작동하면서 drift 방향이 재반전 → 교차항이 양수로 전환
이 비대칭적 패턴이 "위기 때 손실, 회복기에도 수익 못 잡는" 현상의 수학적 설명

COVID-19 충격 (2020년 3월)에서의 유사 패턴

2018–2019년 학습 모형이 2020년 3월에 겪는 동일한 구조
차이점: 회복 속도가 2008년보다 훨씬 빨라 drift의 지속 기간이 짧음
교훈: structural drift의 크기뿐 아니라 지속 시간이 OOS 오차의 누적에 결정적

수치적 직관

오차 항	정상 시장 (2007)	위기 시장 (2008 Q4)	배율
Bias²	~0.5%	~2%	×4
Variance	~1%	~3%	×3
Structural Drift	~0.2%	~15%	×75
Noise	~2%	~8%	×4
Interaction	~0.1%	~4%	×40
총 MSE	~3.8%	~32%	×8.4

(위 수치는 개념적 예시이며 실제 데이터에 기반한 정밀 추정이 아님)

핵심: 정상 시장에서 MSE의 대부분은 noise + variance이지만, 위기 시 structural drift가 총 오차의 약 50% 를 차지한다. 고전적 분해로는 이 구조를 포착할 수 없다.

6. 닫힌계 vs 열린계: 비교 요약

구분	닫힌계 (Stationary)	열린계 (Non-stationary)
핵심 가정	$f_t = f$ 고정, noise iid	$f_t$ 시변, $\sigma_t^2$ 상태 의존
중심 문제	Bias–Variance tradeoff	Model–World mismatch
MSE 분해	$\mathrm{Bias}^2 + \mathrm{Var} + \sigma^2$	$\mathrm{Estimation} + \mathrm{Drift} + \mathrm{Misspec} + \mathrm{Noise}$
Irreducible noise	고정 상수	미모델링된 구조 + 정보 부족의 집합
성능 향상 우선순위	Bias ↔ Variance 균형	Noise 구조 이해 → Variance 통제 → Adaptability

7. 실전적 함의

OOS 성능 향상 우선순위와 그 근거

아래 순서는 금융 시계열의 특성(낮은 SNR, 빈번한 regime shift)에 기반한다.

1단계: Noise 구조 이해 및 관리 — 최우선

근거: 섹션 4.4에서 보았듯, irreducible noise의 상당 부분이 미모델링된 구조다. 이를 먼저 해소하면 signal-to-noise ratio가 근본적으로 개선되어, 이후 bias/variance 관리의 효과가 극대화된다.
방법: volatility modeling(GARCH, SV), regime detection(HMM, Markov switching), feature 확장(macro variables, microstructure indicators)
비유: 잡음이 가득한 방에서 대화하려면, 화법(모델)을 바꾸기 전에 먼저 소음을 줄여야 한다.

2단계: Variance 통제 — 두 번째

근거: 금융 데이터는 signal이 약하므로, noise 구조를 이해한 후에도 모델이 noise에 과적합하기 쉽다. Variance를 먼저 통제해야 bias 개선 시도가 overfitting으로 귀결되지 않는다.
방법: regularization(Ridge, Lasso, Elastic Net), ensemble(bagging, boosting with early stopping), 샘플 외 검증 체계 강화
비유: 총의 정밀도(precision) 를 먼저 확보한 후, 영점(bias) 을 조정하는 것이 효율적이다.

3단계: Adaptive Bias 관리 — 세 번째

근거: drift는 예측 불가능한 시점에 발생한다. 1, 2단계가 확보된 상태에서만 적응적 학습이 의미를 가진다. 그렇지 않으면 adaptation이 noise를 추종하게 된다.
방법: online learning, distribution shift detection, expanding/rolling window 전략, meta-learning

State Representation Error

관측 가능한 $X_t$ 가 충분하지 않으며, 숨겨진 상태 $Z_t$ 가 존재
더 나은 feature, 더 나은 정보, 더 나은 구조 모델을 통해 irreducible로 보이는 noise를 줄일 수 있음
섹션 5의 사례에서 보았듯, VIX·TED spread·레버리지 비율 등을 $Z_t$ 로 포함하면 위기 시 noise의 부분이 설명될 수도 있다

8. 결론

열린계에서의 예측 오차는 고전적 프레임워크로 포착되지 않는다.

\text{Error} \neq \text{Bias}^2 + \text{Var} + \sigma^2

확장된 분해:

\text{Error} = \text{Estimation Error} + \text{Structural Drift} + \text{State Misspecification} + \text{Noise}

가장 핵심적인 통찰은 조건부 기댓값 자체가 이동하는 표적(moving target) 이라는 점이며, irreducible noise로 간주되던 것의 상당 부분이 실제로는 미모델링된 구조와 정보 부족의 반영이라는 점이다.

현실의 예측 문제 = Bias-Variance 문제라기 보다는 Theoretic Model vs Real World Mismatch 문제

확장 가능성

State-space model 관점에서의 형식화
Regime switching model과의 연결