Abstract
고전적 bias–variance–noise 분해는 닫힌계(stationary 환경)를 전제한다. 본 문서는 조건부 기댓값(conditional expectation)을 출발점으로 삼아, 열린계(open system)에서 발생하는 구조적 이동(structural drift), 상태 미명세(state misspecification), 시변 잡음(time-varying noise) 을 체계적으로 MSE 분해에 통합하는 확장된 프레임워크를 제시한다.
1. 서론: 문제의 설정
조건부 기댓값과 최적 예측 함수
입력 , 출력 에 대해 시점 에서의 최적 예측 함수(MSE 기준)는 다음과 같이 정의된다.
이는 임의의 추정기 에 대해 다음을 만족한다.
열린계에서의 데이터 생성
현실의 데이터 생성 과정은 다음과 같이 기술된다.
열린계에서는 다음이 모두 시변(time-varying)이다.
- : 구조 변화(regime shift)
- : 상태변수 분포 변화(covariate shift)
- 선택된 feature set 자체의 불완전성
1.3 실제 예측 상황
과거 데이터로 학습된 추정 함수는 다음과 같다.
이를 미래 시점 에서 예측에 사용한다.
2. 고전적 MSE 분해 (닫힌계)
예측 MSE의 정의
특정 입력 에서의 예측 오차는 다음과 같다.
분해 과정
를 대입하면:
전개 후 조건을 적용하면 교차항이 소거된다.
Bias–Variance 분해
첫 번째 항에 를 가감하면:
최종 결과 (고전적)
- Variance: 데이터 샘플에 따라 가 흔들리는 정도
- Bias²: 평균적으로 와의 체계적 차이
- : 어떤 모델을 써도 줄일 수 없는 본질적 잡음(irreducible noise)
3. 열린계로의 확장
기준 함수의 도입
훈련 분포에 기반한 조건부 기댓값을 기준으로 정의한다.
Out-of-Sample MSE
를 대입하고, 교차항 소거 후:
핵심 분해: Structural Drift 분리
를 가감하여 오차를 두 원천으로 분리한다.
제곱 전개
교차항은 일반적으로 0이 아니다.
확장된 MSE (최종)
4. 각 오차 항의 재해석
Bias² — 구조적 오차
- 모델이 를 얼마나 잘 근사하는가
- 열린계에서는 자체가 시간에 따라 변하므로, bias는 단순한 모형 단순성 문제가 아니라 모형 misspecification + 구조 변화 대응 실패를 반영한다
- static bias보다 adaptive bias가 중요
Variance — 추정 불안정성
- 데이터 샘플에 따라 모델이 흔들리는 정도
- 금융 데이터처럼 noise가 크고 signal이 약한 환경에서 variance 폭발 위험이 존재
- regularization, ensemble 등으로 관리
Structural Drift — 구조적 이동
- 가장 큰 OOS(out-of-sample) error의 원인
- regime shift, 정책 변화, 시장 참여자 행동 변화 등에 의해 발생
- online learning, adaptive model로 대응
Irreducible Noise의 재해석
고전적 해석에서 는 "줄일 수 없는 자연 잡음"이지만, 열린계에서는 본질적으로 다르다.
- : 시변적이고 상태 의존적(time-varying, state-dependent)
- volatility clustering, regime switching 등의 구조를 내포
- 실제로 이며, 숨겨진 상태 의 존재가 irreducible noise처럼 관측됨
핵심 통찰:
즉 "줄일 수 없는 잡음"의 상당 부분은 현재 미모델링된 신호(currently unmodeled signal) 이다.
Interaction Term — Drift와 Estimation Error의 상호작용
교차항의 구조는 다음과 같다.
이 항은 두 요소의 곱이다.
- 첫 번째 인자: structural drift의 크기와 방향
- 두 번째 인자: 추정 함수의 체계적 편향(bias)의 크기와 방향
부호와 크기에 대한 직관:
- drift와 bias가 같은 방향일 때 (예: 둘 다 과대추정), 교차항은 양수 → 오차가 단순 합산보다 더 커진다
- drift와 bias가 반대 방향일 때, 교차항은 음수 → 우연히 오차가 상쇄되는 "행운"이 발생할 수 있다
- 그러나 이 상쇄는 체계적이지 않으며, 다음 regime에서는 반대로 작용할 수 있다
교차항이 특히 커지는 조건:
- 급격한 regime shift 직후: drift가 크고, 모델의 bias도 아직 교정되지 않은 상태
- 과적합된 모델 + 구조 변화: variance는 낮지만 bias가 특정 방향으로 고정되어 있어 drift와 공명
- 느린 적응(slow adaptation): online learning의 학습률이 낮아 bias가 오래 잔존하는 경우
실무적으로 교차항을 무시하면 OOS 성능의 비대칭적 악화 (특정 regime에서만 급격히 나빠지는 현상)를 설명할 수 없다.
5. 금융 시장에서의 구체적 사례: Worked Example
설정: 주식 수익률 예측 모형
2005–2007년 데이터로 선형 팩터 모형을 학습했다고 가정한다.
이 모형을 2008년 금융위기 시점에 적용할 때 발생하는 오차를 분해한다.
각 오차 항의 실현
Bias² (구조적 오차)
- 선형 모형은 팩터 간 비선형 상호작용을 포착하지 못함
- 위기 시 momentum과 value의 관계가 비선형적으로 반전됨
- 훈련 기간의 자체가 의 좋은 근사가 아님
Variance (추정 불안정성)
- 2005–2007년은 상대적으로 낮은 변동성 기간
- 이 기간의 데이터로 추정된 는 좁은 신뢰구간을 가지지만, 이는 거짓 정밀성(false precision)
- 다른 3년 구간을 선택했다면 완전히 다른 가 나왔을 것
Structural Drift (구조적 이동)
- 2008년 9월 Lehman Brothers 파산 이후: 유동성 프리미엄 급등, 상관관계 구조 붕괴, 팩터 수익률 역전
- 와 의 괴리가 모든 오차 항 중 가장 큼
- 이것이 OOS 실패의 지배적 원인
Irreducible Noise → 숨겨진 구조
- 훈련 기간의 "잡음"으로 보였던 것 중 상당 부분이 실은 유동성 상태, 신용 스프레드, 시장 참여자 포지셔닝 등 미포함 변수의 영향
- = (VIX, TED spread, 레버리지 비율) 등을 추가하면 "irreducible" noise의 일부를 설명 가능
Interaction Term (교차항)
- 모형의 bias 방향: momentum 팩터에 대해 양의 계수 (상승장 학습)
- drift 방향: 2008년 momentum crash로 실제 관계가 음으로 전환
- bias와 drift가 반대 방향 → 교차항이 일시적으로 음수
- 그러나 2009년 회복기에 momentum이 다시 작동하면서 drift 방향이 재반전 → 교차항이 양수로 전환
- 이 비대칭적 패턴이 "위기 때 손실, 회복기에도 수익 못 잡는" 현상의 수학적 설명
COVID-19 충격 (2020년 3월)에서의 유사 패턴
- 2018–2019년 학습 모형이 2020년 3월에 겪는 동일한 구조
- 차이점: 회복 속도가 2008년보다 훨씬 빨라 drift의 지속 기간이 짧음
- 교훈: structural drift의 크기뿐 아니라 지속 시간이 OOS 오차의 누적에 결정적
수치적 직관
| 오차 항 | 정상 시장 (2007) | 위기 시장 (2008 Q4) | 배율 |
|---|---|---|---|
| Bias² | ~0.5% | ~2% | ×4 |
| Variance | ~1% | ~3% | ×3 |
| Structural Drift | ~0.2% | ~15% | ×75 |
| Noise | ~2% | ~8% | ×4 |
| Interaction | ~0.1% | ~4% | ×40 |
| 총 MSE | ~3.8% | ~32% | ×8.4 |
(위 수치는 개념적 예시이며 실제 데이터에 기반한 정밀 추정이 아님)
핵심: 정상 시장에서 MSE의 대부분은 noise + variance이지만, 위기 시 structural drift가 총 오차의 약 50% 를 차지한다. 고전적 분해로는 이 구조를 포착할 수 없다.
6. 닫힌계 vs 열린계: 비교 요약
| 구분 | 닫힌계 (Stationary) | 열린계 (Non-stationary) |
|---|---|---|
| 핵심 가정 | 고정, noise iid | 시변, 상태 의존 |
| 중심 문제 | Bias–Variance tradeoff | Model–World mismatch |
| MSE 분해 | ||
| Irreducible noise | 고정 상수 | 미모델링된 구조 + 정보 부족의 집합 |
| 성능 향상 우선순위 | Bias ↔ Variance 균형 | Noise 구조 이해 → Variance 통제 → Adaptability |
7. 실전적 함의
OOS 성능 향상 우선순위와 그 근거
아래 순서는 금융 시계열의 특성(낮은 SNR, 빈번한 regime shift)에 기반한다.
1단계: Noise 구조 이해 및 관리 — 최우선
- 근거: 섹션 4.4에서 보았듯, irreducible noise의 상당 부분이 미모델링된 구조다. 이를 먼저 해소하면 signal-to-noise ratio가 근본적으로 개선되어, 이후 bias/variance 관리의 효과가 극대화된다.
- 방법: volatility modeling(GARCH, SV), regime detection(HMM, Markov switching), feature 확장(macro variables, microstructure indicators)
- 비유: 잡음이 가득한 방에서 대화하려면, 화법(모델)을 바꾸기 전에 먼저 소음을 줄여야 한다.
2단계: Variance 통제 — 두 번째
- 근거: 금융 데이터는 signal이 약하므로, noise 구조를 이해한 후에도 모델이 noise에 과적합하기 쉽다. Variance를 먼저 통제해야 bias 개선 시도가 overfitting으로 귀결되지 않는다.
- 방법: regularization(Ridge, Lasso, Elastic Net), ensemble(bagging, boosting with early stopping), 샘플 외 검증 체계 강화
- 비유: 총의 정밀도(precision) 를 먼저 확보한 후, 영점(bias) 을 조정하는 것이 효율적이다.
3단계: Adaptive Bias 관리 — 세 번째
- 근거: drift는 예측 불가능한 시점에 발생한다. 1, 2단계가 확보된 상태에서만 적응적 학습이 의미를 가진다. 그렇지 않으면 adaptation이 noise를 추종하게 된다.
- 방법: online learning, distribution shift detection, expanding/rolling window 전략, meta-learning
State Representation Error
- 관측 가능한 가 충분하지 않으며, 숨겨진 상태 가 존재
- 더 나은 feature, 더 나은 정보, 더 나은 구조 모델을 통해 irreducible로 보이는 noise를 줄일 수 있음
- 섹션 5의 사례에서 보았듯, VIX·TED spread·레버리지 비율 등을 로 포함하면 위기 시 noise의 부분이 설명될 수도 있다
8. 결론
열린계에서의 예측 오차는 고전적 프레임워크로 포착되지 않는다.
확장된 분해:
가장 핵심적인 통찰은 조건부 기댓값 자체가 이동하는 표적(moving target) 이라는 점이며, irreducible noise로 간주되던 것의 상당 부분이 실제로는 미모델링된 구조와 정보 부족의 반영이라는 점이다.
현실의 예측 문제 = Bias-Variance 문제라기 보다는 Theoretic Model vs Real World Mismatch 문제
확장 가능성
- State-space model 관점에서의 형식화
- Regime switching model과의 연결