Abstract

고전적 bias–variance–noise 분해는 닫힌계(stationary 환경)를 전제한다. 본 문서는 조건부 기댓값(conditional expectation)을 출발점으로 삼아, 열린계(open system)에서 발생하는 구조적 이동(structural drift), 상태 미명세(state misspecification), 시변 잡음(time-varying noise) 을 체계적으로 MSE 분해에 통합하는 확장된 프레임워크를 제시한다.

1. 서론: 문제의 설정

조건부 기댓값과 최적 예측 함수

입력 XtX_t, 출력 YtY_t 에 대해 시점 tt 에서의 최적 예측 함수(MSE 기준)는 다음과 같이 정의된다.

ft(x):=E[YtXt=x]f_t(x) := \mathbb{E}[Y_t \mid X_t = x]

이는 임의의 추정기 gg 에 대해 다음을 만족한다.

argming  E[(Ytg(Xt))2]=ft(x)\arg\min_g \; \mathbb{E}[(Y_t - g(X_t))^2] = f_t(x)

열린계에서의 데이터 생성

현실의 데이터 생성 과정은 다음과 같이 기술된다.

Yt=ft(Xt)+εtY_t = f_t(X_t) + \varepsilon_t
  • E[εtXt]=0\mathbb{E}[\varepsilon_t \mid X_t] = 0
  • Var(εtXt=x)=σt2(x)\mathrm{Var}(\varepsilon_t \mid X_t = x) = \sigma_t^2(x)

열린계에서는 다음이 모두 시변(time-varying)이다.

  • ftf_t: 구조 변화(regime shift)
  • P(Xt)P(X_t): 상태변수 분포 변화(covariate shift)
  • 선택된 feature set 자체의 불완전성

1.3 실제 예측 상황

과거 데이터로 학습된 추정 함수는 다음과 같다.

f^(x)ftrain(x)\hat{f}(x) \approx f_{\text{train}}(x)

이를 미래 시점 tt 에서 예측에 사용한다.

Y^t=f^(Xt)\hat{Y}_t = \hat{f}(X_t)

2. 고전적 MSE 분해 (닫힌계)

예측 MSE의 정의

특정 입력 xx 에서의 예측 오차는 다음과 같다.

MSE(x)=E[(Yf^(x))2X=x]\mathrm{MSE}(x) = \mathbb{E}\left[(Y - \hat{f}(x))^2 \mid X = x\right]

분해 과정

Y=f(x)+εY = f(x) + \varepsilon 를 대입하면:

=E[(f(x)f^(x)+ε)2]= \mathbb{E}\left[(f(x) - \hat{f}(x) + \varepsilon)^2\right]

전개 후 E[εX=x]=0\mathbb{E}[\varepsilon \mid X = x] = 0 조건을 적용하면 교차항이 소거된다.

=E[(f(x)f^(x))2]+σ2= \mathbb{E}[(f(x) - \hat{f}(x))^2] + \sigma^2

Bias–Variance 분해

첫 번째 항에 E[f^(x)]\mathbb{E}[\hat{f}(x)] 를 가감하면:

E[(f(x)f^(x))2]=Var(f^(x))+Bias(f^(x))2\mathbb{E}[(f(x) - \hat{f}(x))^2] = \mathrm{Var}(\hat{f}(x)) + \mathrm{Bias}(\hat{f}(x))^2

최종 결과 (고전적)

MSE(x)=Var(f^(x))+Bias(f^(x))2+σ2\boxed{\mathrm{MSE}(x) = \mathrm{Var}(\hat{f}(x)) + \mathrm{Bias}(\hat{f}(x))^2 + \sigma^2}
  • Variance: 데이터 샘플에 따라 f^\hat{f} 가 흔들리는 정도
  • Bias²: 평균적으로 f(x)f(x) 와의 체계적 차이
  • sigma2sigma^2: 어떤 모델을 써도 줄일 수 없는 본질적 잡음(irreducible noise)

3. 열린계로의 확장

기준 함수의 도입

훈련 분포에 기반한 조건부 기댓값을 기준으로 정의한다.

ftrain(x):=E[YX=x  (train dist)]f_{\text{train}}(x) := \mathbb{E}[Y \mid X = x \;(\text{train dist})]

Out-of-Sample MSE

MSEt(x)=E[(Ytf^(x))2Xt=x]\mathrm{MSE}_t(x) = \mathbb{E}[(Y_t - \hat{f}(x))^2 \mid X_t = x]

Yt=ft(x)+εtY_t = f_t(x) + \varepsilon_t 를 대입하고, 교차항 소거 후:

=E[(ft(x)f^(x))2]+σt2(x)= \mathbb{E}[(f_t(x) - \hat{f}(x))^2] + \sigma_t^2(x)

핵심 분해: Structural Drift 분리

ftrain(x)f_{\text{train}}(x) 를 가감하여 오차를 두 원천으로 분리한다.

ft(x)f^(x)=(ft(x)ftrain(x))structural drift+(ftrain(x)f^(x))estimation errorf_t(x) - \hat{f}(x) = \underbrace{(f_t(x) - f_{\text{train}}(x))}_{\text{structural drift}} + \underbrace{(f_{\text{train}}(x) - \hat{f}(x))}_{\text{estimation error}}

제곱 전개

E[(ftf^)2]=E[(ftrainf^)2]bias-variance+(ftftrain)2structural shift+2(ftftrain)E[(ftrainf^)]interaction (0)\mathbb{E}[(f_t - \hat{f})^2] = \underbrace{\mathbb{E}[(f_{\text{train}} - \hat{f})^2]}_{\text{bias-variance}} + \underbrace{(f_t - f_{\text{train}})^2}_{\text{structural shift}} + \underbrace{2(f_t - f_{\text{train}})\mathbb{E}[(f_{\text{train}} - \hat{f})]}_{\text{interaction (}\neq 0\text{)}}

교차항은 일반적으로 0이 아니다.

확장된 MSE (최종)

MSEt=Var(f^)estimation+Bias2approximation+(ftftrain)2structural drift+σt2noise+interaction0\boxed{\mathrm{MSE}_t = \underbrace{\mathrm{Var}(\hat{f})}_{\text{estimation}} + \underbrace{\mathrm{Bias}^2}_{\text{approximation}} + \underbrace{(f_t - f_{\text{train}})^2}_{\text{structural drift}} + \underbrace{\sigma_t^2}_{\text{noise}} + \underbrace{\text{interaction}}_{\neq 0}}

4. 각 오차 항의 재해석

Bias² — 구조적 오차

  • 모델이 f(x)f(x) 를 얼마나 잘 근사하는가
  • 열린계에서는 ftf_t 자체가 시간에 따라 변하므로, bias는 단순한 모형 단순성 문제가 아니라 모형 misspecification + 구조 변화 대응 실패를 반영한다
  • static bias보다 adaptive bias가 중요

Variance — 추정 불안정성

  • 데이터 샘플에 따라 모델이 흔들리는 정도
  • 금융 데이터처럼 noise가 크고 signal이 약한 환경에서 variance 폭발 위험이 존재
  • regularization, ensemble 등으로 관리

Structural Drift — 구조적 이동

ft(x)ftrain(x)f_t(x) - f_{\text{train}}(x)
  • 가장 큰 OOS(out-of-sample) error의 원인
  • regime shift, 정책 변화, 시장 참여자 행동 변화 등에 의해 발생
  • online learning, adaptive model로 대응

Irreducible Noise의 재해석

고전적 해석에서 σ2\sigma^2 는 "줄일 수 없는 자연 잡음"이지만, 열린계에서는 본질적으로 다르다.

  • σ2constant\sigma^2 \neq \text{constant}: 시변적이고 상태 의존적(time-varying, state-dependent)
  • volatility clustering, regime switching 등의 구조를 내포
  • 실제로 Yt=ft(Xt,Zt)Y_t = f_t(X_t, Z_t) 이며, 숨겨진 상태 ZtZ_t 의 존재가 irreducible noise처럼 관측됨

핵심 통찰:

Irreducible noise    Unobserved state+Model misspecification\boxed{\text{Irreducible noise} \;\approx\; \text{Unobserved state} + \text{Model misspecification}}

즉 "줄일 수 없는 잡음"의 상당 부분은 현재 미모델링된 신호(currently unmodeled signal) 이다.

Interaction Term — Drift와 Estimation Error의 상호작용

교차항의 구조는 다음과 같다.

2(ft(x)ftrain(x))E[ftrain(x)f^(x)]2(f_t(x) - f_{\text{train}}(x)) \cdot \mathbb{E}[f_{\text{train}}(x) - \hat{f}(x)]

이 항은 두 요소의 곱이다.

  • 첫 번째 인자: structural drift의 크기와 방향
  • 두 번째 인자: 추정 함수의 체계적 편향(bias)의 크기와 방향

부호와 크기에 대한 직관:

  • drift와 bias가 같은 방향일 때 (예: 둘 다 과대추정), 교차항은 양수 → 오차가 단순 합산보다 더 커진다
  • drift와 bias가 반대 방향일 때, 교차항은 음수 → 우연히 오차가 상쇄되는 "행운"이 발생할 수 있다
  • 그러나 이 상쇄는 체계적이지 않으며, 다음 regime에서는 반대로 작용할 수 있다

교차항이 특히 커지는 조건:

  1. 급격한 regime shift 직후: drift가 크고, 모델의 bias도 아직 교정되지 않은 상태
  2. 과적합된 모델 + 구조 변화: variance는 낮지만 bias가 특정 방향으로 고정되어 있어 drift와 공명
  3. 느린 적응(slow adaptation): online learning의 학습률이 낮아 bias가 오래 잔존하는 경우

실무적으로 교차항을 무시하면 OOS 성능의 비대칭적 악화 (특정 regime에서만 급격히 나빠지는 현상)를 설명할 수 없다.

5. 금융 시장에서의 구체적 사례: Worked Example

설정: 주식 수익률 예측 모형

2005–2007년 데이터로 선형 팩터 모형을 학습했다고 가정한다.

f^(x)=β0+β1Momentum+β2Value+β3Size\hat{f}(x) = \beta_0 + \beta_1 \cdot \text{Momentum} + \beta_2 \cdot \text{Value} + \beta_3 \cdot \text{Size}

이 모형을 2008년 금융위기 시점에 적용할 때 발생하는 오차를 분해한다.

각 오차 항의 실현

Bias² (구조적 오차)

  • 선형 모형은 팩터 간 비선형 상호작용을 포착하지 못함
  • 위기 시 momentum과 value의 관계가 비선형적으로 반전됨
  • 훈련 기간의 ftrain(x)f_{\text{train}}(x) 자체가 ft(x)f_t(x) 의 좋은 근사가 아님

Variance (추정 불안정성)

  • 2005–2007년은 상대적으로 낮은 변동성 기간
  • 이 기간의 데이터로 추정된 β^\hat{\beta} 는 좁은 신뢰구간을 가지지만, 이는 거짓 정밀성(false precision)
  • 다른 3년 구간을 선택했다면 완전히 다른 β^\hat{\beta} 가 나왔을 것

Structural Drift (구조적 이동)

  • 2008년 9월 Lehman Brothers 파산 이후: 유동성 프리미엄 급등, 상관관계 구조 붕괴, 팩터 수익률 역전
  • f2008(x)f_{2008}(x)ftrain(x)f_{\text{train}}(x) 의 괴리가 모든 오차 항 중 가장 큼
  • 이것이 OOS 실패의 지배적 원인

Irreducible Noise → 숨겨진 구조

  • 훈련 기간의 "잡음"으로 보였던 것 중 상당 부분이 실은 유동성 상태, 신용 스프레드, 시장 참여자 포지셔닝 등 미포함 변수의 영향
  • ZtZ_t = (VIX, TED spread, 레버리지 비율) 등을 추가하면 "irreducible" noise의 일부를 설명 가능

Interaction Term (교차항)

  • 모형의 bias 방향: momentum 팩터에 대해 양의 계수 (상승장 학습)
  • drift 방향: 2008년 momentum crash로 실제 관계가 음으로 전환
  • bias와 drift가 반대 방향 → 교차항이 일시적으로 음수
  • 그러나 2009년 회복기에 momentum이 다시 작동하면서 drift 방향이 재반전 → 교차항이 양수로 전환
  • 이 비대칭적 패턴이 "위기 때 손실, 회복기에도 수익 못 잡는" 현상의 수학적 설명

COVID-19 충격 (2020년 3월)에서의 유사 패턴

  • 2018–2019년 학습 모형이 2020년 3월에 겪는 동일한 구조
  • 차이점: 회복 속도가 2008년보다 훨씬 빨라 drift의 지속 기간이 짧음
  • 교훈: structural drift의 크기뿐 아니라 지속 시간이 OOS 오차의 누적에 결정적

수치적 직관

오차 항 정상 시장 (2007) 위기 시장 (2008 Q4) 배율
Bias² ~0.5% ~2% ×4
Variance ~1% ~3% ×3
Structural Drift ~0.2% ~15% ×75
Noise ~2% ~8% ×4
Interaction ~0.1% ~4% ×40
총 MSE ~3.8% ~32% ×8.4

(위 수치는 개념적 예시이며 실제 데이터에 기반한 정밀 추정이 아님)

핵심: 정상 시장에서 MSE의 대부분은 noise + variance이지만, 위기 시 structural drift가 총 오차의 약 50% 를 차지한다. 고전적 분해로는 이 구조를 포착할 수 없다.

6. 닫힌계 vs 열린계: 비교 요약

구분 닫힌계 (Stationary) 열린계 (Non-stationary)
핵심 가정 ft=ff_t = f 고정, noise iid ftf_t 시변, σt2\sigma_t^2 상태 의존
중심 문제 Bias–Variance tradeoff Model–World mismatch
MSE 분해 Bias2+Var+σ2\mathrm{Bias}^2 + \mathrm{Var} + \sigma^2 Estimation+Drift+Misspec+Noise\mathrm{Estimation} + \mathrm{Drift} + \mathrm{Misspec} + \mathrm{Noise}
Irreducible noise 고정 상수 미모델링된 구조 + 정보 부족의 집합
성능 향상 우선순위 Bias ↔ Variance 균형 Noise 구조 이해 → Variance 통제 → Adaptability

7. 실전적 함의

OOS 성능 향상 우선순위와 그 근거

아래 순서는 금융 시계열의 특성(낮은 SNR, 빈번한 regime shift)에 기반한다.

1단계: Noise 구조 이해 및 관리 — 최우선

  • 근거: 섹션 4.4에서 보았듯, irreducible noise의 상당 부분이 미모델링된 구조다. 이를 먼저 해소하면 signal-to-noise ratio가 근본적으로 개선되어, 이후 bias/variance 관리의 효과가 극대화된다.
  • 방법: volatility modeling(GARCH, SV), regime detection(HMM, Markov switching), feature 확장(macro variables, microstructure indicators)
  • 비유: 잡음이 가득한 방에서 대화하려면, 화법(모델)을 바꾸기 전에 먼저 소음을 줄여야 한다.

2단계: Variance 통제 — 두 번째

  • 근거: 금융 데이터는 signal이 약하므로, noise 구조를 이해한 후에도 모델이 noise에 과적합하기 쉽다. Variance를 먼저 통제해야 bias 개선 시도가 overfitting으로 귀결되지 않는다.
  • 방법: regularization(Ridge, Lasso, Elastic Net), ensemble(bagging, boosting with early stopping), 샘플 외 검증 체계 강화
  • 비유: 총의 정밀도(precision) 를 먼저 확보한 후, 영점(bias) 을 조정하는 것이 효율적이다.

3단계: Adaptive Bias 관리 — 세 번째

  • 근거: drift는 예측 불가능한 시점에 발생한다. 1, 2단계가 확보된 상태에서만 적응적 학습이 의미를 가진다. 그렇지 않으면 adaptation이 noise를 추종하게 된다.
  • 방법: online learning, distribution shift detection, expanding/rolling window 전략, meta-learning

State Representation Error

  • 관측 가능한 XtX_t 가 충분하지 않으며, 숨겨진 상태 ZtZ_t 가 존재
  • 더 나은 feature, 더 나은 정보, 더 나은 구조 모델을 통해 irreducible로 보이는 noise를 줄일 수 있음
  • 섹션 5의 사례에서 보았듯, VIX·TED spread·레버리지 비율 등을 ZtZ_t 로 포함하면 위기 시 noise의 부분이 설명될 수도 있다

8. 결론

열린계에서의 예측 오차는 고전적 프레임워크로 포착되지 않는다.

ErrorBias2+Var+σ2\text{Error} \neq \text{Bias}^2 + \text{Var} + \sigma^2

확장된 분해:

Error=Estimation Error+Structural Drift+State Misspecification+Noise\text{Error} = \text{Estimation Error} + \text{Structural Drift} + \text{State Misspecification} + \text{Noise}

가장 핵심적인 통찰은 조건부 기댓값 자체가 이동하는 표적(moving target) 이라는 점이며, irreducible noise로 간주되던 것의 상당 부분이 실제로는 미모델링된 구조와 정보 부족의 반영이라는 점이다.

현실의 예측 문제 = Bias-Variance 문제라기 보다는 Theoretic Model vs Real World Mismatch 문제

확장 가능성

  • State-space model 관점에서의 형식화
  • Regime switching model과의 연결