Big Picture: 왜 이 두 주제가 중요한가?

기초
Econometrics의 두 가지 큰 도전
Q: 지금까지 배운 OLS의 한계는 무엇일까요?
Challenge 1: Omitted Variable Bias (OVB)

Multiple regression으로도 해결할 수 없는 문제가 있습니다. 관찰할 수 없거나 측정할 수 없는 변수들!
• 개인의 타고난 능력 (ability)
• 지역의 문화 (culture)
• 기업의 경영 철학 (management philosophy)

Solution → Panel Data! 시간에 따라 변하지 않는 omitted variables를 제거할 수 있습니다.

Challenge 2: Wrong Functional Form

Y가 0 또는 1의 값만 가질 때 (binary outcome), 선형 모델의 문제점:
• 예측값이 0보다 작거나 1보다 클 수 있음
• 확률로 해석할 수 없음
• Marginal effect가 일정하다는 비현실적 가정

Solution → Probit/Logit! S자 곡선으로 확률을 모델링합니다.

Lecture 9의 핵심 목표

1

Panel Data로 OVB 해결하기

같은 개체를 여러 시점에서 관찰하여 시간불변 특성 제거

2

Binary Outcomes 올바르게 모델링하기

LPM, Probit, Logit의 차이점과 각각의 장단점 이해

3

실제 응용 사례 분석

음주운전 법률과 모기지 차별 사례를 통한 실전 이해

Panel Data: What and Why

기초
? Panel Data란 무엇인가?

Panel data는 multiple entities를 multiple time periods에 걸쳐 관찰한 데이터입니다.

실생활 예시
  • 교육: 420개 학군을 1999년과 2000년에 관찰 (840 observations)
  • 경제: 50개 주를 3년간 관찰 (150 observations)
  • 노동: 1000명의 개인을 4개월간 추적 (4000 observations)

Notation for Panel Data

  • i = entity (개체: 사람, 기업, 주, 국가 등), i = 1, ..., n
  • t = time period (시간: 년, 월, 분기 등), t = 1, ..., T
  • $Y_{it}$ = Y의 값 for entity i at time t
  • Balanced panel: 모든 entity가 모든 time period에 관찰됨 (no missing)
Q: 왜 Panel Data가 Cross-sectional Data보다 강력할까요?
한 번의 스냅샷 vs 영화를 생각해보세요!

Cross-sectional data (스냅샷):
• 2024년 각 주의 교통사고 사망률과 맥주세
• 문제: 캘리포니아의 높은 교통량? 텍사스의 음주 문화?

Panel data (영화):
• 각 주를 1982-1988년 동안 매년 관찰
• 핵심: 주마다의 고유한 특성은 시간이 지나도 변하지 않음!
• 따라서 이런 특성들의 효과를 제거할 수 있음

마치 쌍둥이 연구와 비슷합니다. 유전자가 같은 쌍둥이의 차이를 보면, 유전자 효과는 자동으로 제거됩니다!
CASE STUDY: Traffic Deaths and Beer Taxes

연구 질문: Does increasing beer tax reduce traffic fatalities?

Cross-sectional 결과 (놀라운 발견!):

$$\widehat{\text{FatalityRate}}_{1982} = 2.01 + 0.15 \times \text{BeerTax}$$ $$\widehat{\text{FatalityRate}}_{1988} = 1.86 + 0.44 \times \text{BeerTax}$$

맥주세가 높을수록 교통사고가 더 많다?! 😱

OVB의 함정!
• 도시 지역: 교통량 많음 → 사고 많음, 세금 높음
• 시골 지역: 교통량 적음 → 사고 적음, 세금 낮음
• 결과: 양의 상관관계 (spurious!)
Cross-sectional Data의 문제점: 1988년 데이터

Fixed Effects Regression

중급
The Key Idea: Eliminating Time-Invariant OVB

Panel data의 핵심 아이디어는 간단합니다:

$$Y_{it} = \beta_0 + \beta_1 X_{it} + \beta_2 Z_i + u_{it}$$

여기서 $Z_i$는 시간에 따라 변하지 않는 entity의 특성입니다.

Q: $Z_i$를 관찰할 수 없다면 어떻게 제거할까요?
방법 1: First Differencing (T=2일 때)

1988년: $Y_{i,1988} = \beta_0 + \beta_1 X_{i,1988} + \beta_2 Z_i + u_{i,1988}$
1982년: $Y_{i,1982} = \beta_0 + \beta_1 X_{i,1982} + \beta_2 Z_i + u_{i,1982}$

빼면: $Y_{i,1988} - Y_{i,1982} = \beta_1(X_{i,1988} - X_{i,1982}) + (u_{i,1988} - u_{i,1982})$

$Z_i$가 사라졌습니다! 시간에 따라 변하지 않으므로 차분하면 제거됩니다.

이것은 마치 체중 감량 전후 사진처럼, 같은 사람의 변화만 보는 것입니다. 키, 골격, 유전자 등은 자동으로 control됩니다!
First Difference Results

Difference regression (n=48):

$$\widehat{FR_{88} - FR_{82}} = -0.072 - 1.04(\text{BeerTax}_{88} - \text{BeerTax}_{82})$$ $$(0.065) \quad (0.36)$$

해석: 맥주세가 $1 증가하면 교통사고 사망률이 연간 10,000명당 1.04명 감소합니다!

Cross-sectional vs Panel 결과 비교:
• Cross-sectional: +0.44 (맥주세 ↑ → 사망 ↑)
• Panel (차분): -1.04 (맥주세 ↑ → 사망 ↓)
• 부호가 완전히 반대! OVB의 심각성을 보여줍니다.
방법 2: Entity Fixed Effects (T > 2일 때)

두 가지 표현 방법

1. "n-1 binary regressors" form:

$$Y_{it} = \beta_0 + \beta_1 X_{it} + \gamma_2 D2_i + \gamma_3 D3_i + ... + \gamma_n Dn_i + u_{it}$$

where $D2_i = 1$ if entity is #2, 0 otherwise (더미 변수)

2. "Fixed effects" form:

$$Y_{it} = \beta_1 X_{it} + \alpha_i + u_{it}$$

where $\alpha_i$ = entity i의 고정 효과 (fixed effect)

Q: 왜 n개가 아니라 n-1개의 더미를 사용할까요?
Dummy variable trap을 피하기 위해서입니다!

3개 주(CA, TX, MA)가 있다고 생각해보세요:
• $D_{CA} + D_{TX} + D_{MA} = 1$ (항상!)
• 이것은 상수항과 perfect multicollinearity
• 따라서 하나를 빼야 합니다 (reference group)

마치 "남자/여자" 더미에서 하나만 넣는 것과 같습니다!
방법 3: Entity Demeaning

Fixed effects를 추정하는 가장 효율적인 방법입니다:

  1. 각 entity의 평균 계산: $$\bar{Y}_i = \frac{1}{T}\sum_{t=1}^{T} Y_{it}, \quad \bar{X}_i = \frac{1}{T}\sum_{t=1}^{T} X_{it}$$
  2. 평균에서의 편차 계산: $$\tilde{Y}_{it} = Y_{it} - \bar{Y}_i, \quad \tilde{X}_{it} = X_{it} - \bar{X}_i$$
  3. Demeaned 변수로 회귀분석: $$\tilde{Y}_{it} = \beta_1 \tilde{X}_{it} + \tilde{u}_{it}$$
STATA 구현
xtset state year                    // panel data 선언
xtreg vfrall beertax, fe vce(cluster state)  // fixed effects with clustered SE

결과:

$$\widehat{\text{FatalityRate}} = -0.66 \times \text{BeerTax} + \text{State Fixed Effects}$$ $$(0.29)$$
Fixed Effects의 직관: 각 주의 개별 회귀선

Application: Drunk Driving Laws and Traffic Deaths

중급
Time Fixed Effects와 Two-Way Fixed Effects

때로는 시간에 따라 변하지만 모든 entity에 동일하게 영향을 미치는 요인들도 있습니다:

  • 기술 발전: 에어백, ABS 등 자동차 안전 기술
  • 연방 정책: 전국적 음주운전 캠페인
  • 경제 상황: 전국적 경기 침체나 호황
$$Y_{it} = \beta_1 X_{it} + \alpha_i + \lambda_t + u_{it}$$

where:

  • $\alpha_i$ = entity fixed effects (주별 고정 효과)
  • $\lambda_t$ = time fixed effects (연도별 고정 효과)
Full Model Results
모델 Beer Tax 계수 SE State FE Time FE Clustered SE
Cross-sectional 0.44 (0.13) No No No
State FE only -0.66** (0.29) Yes No Yes
Two-way FE -0.64* (0.36) Yes Yes Yes

* p < 0.10, ** p < 0.05

! Clustered Standard Errors
Q: 왜 일반 SE가 아닌 Clustered SE를 사용할까요?
Panel data의 특별한 구조 때문입니다!

문제: 같은 주의 관측치들은 서로 독립적이지 않습니다
• 2020년 캘리포니아와 2021년 캘리포니아는 연관성이 높음
• 하지만 캘리포니아와 텍사스는 독립적

결과: 일반 SE는 표준오차를 과소평가합니다
• Type I error 증가 (잘못된 기각)
• 실제보다 더 유의해 보임

해결: Clustered SE는 entity 내 상관관계를 고려합니다
• 보통 더 큰 표준오차
• 더 보수적인 추론

이것은 마치 가족 구성원들의 키를 독립적인 관측치로 보는 것과 같은 실수를 방지합니다!
실무 팁:
• Panel data에서는 항상 clustered SE 사용
• STATA: vce(cluster state)
• R: cluster.vcov
• Python: cov_type='cluster'

Binary Dependent Variables: Introduction

기초
Binary Outcomes in Real Life

많은 중요한 경제적 결정은 Yes/No의 형태입니다:

Binary Variable 예시
  • 고용: 취업/미취업
  • 대학 진학: 합격/불합격
  • 대출 승인: 승인/거절
  • 구매 결정: 구매/미구매
  • 투표: 찬성/반대
$$Y = \begin{cases} 1 & \text{if event occurs} \\ 0 & \text{if event does not occur} \end{cases}$$
Linear Probability Model (LPM)

가장 단순한 접근: OLS를 그대로 사용!

$$Y_i = \beta_0 + \beta_1 X_i + u_i$$

핵심 통찰: $E(Y|X) = Pr(Y=1|X)$

Q: 왜 $E(Y|X) = Pr(Y=1|X)$일까요?
Y가 0 또는 1만 가질 때:

$E(Y|X) = 0 \times Pr(Y=0|X) + 1 \times Pr(Y=1|X) = Pr(Y=1|X)$

따라서 조건부 평균은 곧 확률입니다!

이것은 마치 동전 던지기에서 "앞면의 평균"이 "앞면이 나올 확률"과 같은 것입니다.
EXAMPLE: Mortgage Denial (HMDA Data)

모델: deny = $\beta_0 + \beta_1$ P/I ratio + u

결과:

$$\widehat{deny} = -0.080 + 0.604 \times \text{P/I ratio}$$ $$(0.032) \quad (0.098)$$

해석:

  • P/I ratio = 0.3: $\hat{Pr}(deny=1) = -0.080 + 0.604(0.3) = 0.101$ (10.1%)
  • P/I ratio = 0.4: $\hat{Pr}(deny=1) = -0.080 + 0.604(0.4) = 0.162$ (16.2%)
  • 효과: P/I ratio가 0.1 증가 → 거절 확률 6.04%p 증가
LPM의 치명적 문제:
• P/I ratio = 0: $\hat{Pr} = -0.080$ (음수 확률?!)
• P/I ratio = 1.8: $\hat{Pr} = 1.007$ (100% 초과?!)
• 확률은 반드시 [0, 1] 범위여야 합니다!
LPM의 문제점: 비현실적인 예측값

Probit and Logit Regression

고급
S-Curve Solution: Probit Model

핵심 아이디어: 선형 대신 S자 곡선 (sigmoid) 사용!

$$Pr(Y=1|X) = \Phi(\beta_0 + \beta_1 X)$$

where $\Phi$ = cumulative standard normal distribution function

Q: 왜 정규분포의 CDF를 사용할까요?
잠재변수(latent variable) 관점에서 생각해보세요:

1. 잠재변수 $Y^*$: 대출 승인의 "점수"라고 생각
$Y^* = \beta_0 + \beta_1 X + u$, where $u \sim N(0,1)$

2. 관찰되는 결과:
$Y = 1$ if $Y^* > 0$ (점수가 임계값을 넘으면 승인)
$Y = 0$ if $Y^* \leq 0$

3. 확률 계산:
$Pr(Y=1|X) = Pr(Y^* > 0) = Pr(u > -\beta_0 - \beta_1 X) = \Phi(\beta_0 + \beta_1 X)$

이것은 마치 대학 입시에서 내부 점수는 연속적이지만, 우리가 보는 것은 합격/불합격뿐인 것과 같습니다!
Probit Example: Step by Step

추정 결과:

$$\widehat{Pr(deny=1|P/I)} = \Phi(-2.19 + 2.97 \times \text{P/I ratio})$$

P/I ratio = 0.3일 때 계산:

  1. z-value 계산: $z = -2.19 + 2.97(0.3) = -1.30$
  2. 표준정규분포표 확인: $\Phi(-1.30) = 0.097$
  3. 해석: 대출 거절 확률 = 9.7%

P/I ratio = 0.4일 때:

  1. z-value: $z = -2.19 + 2.97(0.4) = -1.00$
  2. $\Phi(-1.00) = 0.159$
  3. 대출 거절 확률 = 15.9%

Marginal effect: 0.3 → 0.4로 증가시 6.2%p 증가

Logit Model: Alternative S-Curve

Logit은 logistic distribution 사용:

$$Pr(Y=1|X) = F(\beta_0 + \beta_1 X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}}$$
Logit 계산 예시

$\beta_0 = -3, \beta_1 = 2, X = 0.4$일 때:

1. 지수 계산: $\beta_0 + \beta_1 X = -3 + 2(0.4) = -2.2$

2. 확률 계산: $Pr(Y=1) = \frac{1}{1 + e^{-(-2.2)}} = \frac{1}{1 + e^{2.2}} = \frac{1}{1 + 9.03} = 0.0998$

LPM vs Probit vs Logit 비교

특징 LPM Probit Logit
함수 형태 Linear Normal CDF Logistic CDF
예측 범위 (-∞, ∞) [0, 1] [0, 1]
Marginal Effect Constant Variable Variable
추정 방법 OLS MLE MLE
계산 용이성 매우 쉬움 표 필요 직접 계산 가능
해석 %p 변화 z-value 변화 log odds 변화
실무 팁:
• Probit과 Logit의 예측 확률은 거의 동일 (차이 < 0.01)
• 계수 크기는 다름: Logit ≈ 1.6 × Probit
• 경제학: Probit 선호 (정규분포 가정)
• 의학/역학: Logit 선호 (odds ratio 해석)
LPM vs Probit vs Logit: 예측 확률 비교

Practice Problems

실전
Problem 1

You are studying the effect of beer tax on traffic fatalities using panel data from 48 states over 7 years. Consider the following results:

(1) Cross-sectional (1988): $\widehat{FatalityRate} = 1.86 + 0.44 \times BeerTax$
(2) First difference: $\widehat{\Delta FatalityRate} = -0.072 - 1.04 \times \Delta BeerTax$
(3) Fixed effects: $\widehat{FatalityRate} = -0.66 \times BeerTax + State FE$

(a) Explain why the coefficient on BeerTax changes sign between (1) and (2).
(b) What omitted variables might be causing bias in (1)?
(c) Interpret the coefficient -0.66 in model (3).
(d) Why might you want to add time fixed effects to model (3)?

Solution

(a) Sign change 설명:

Cross-sectional 분석에서는 omitted variable bias가 심각합니다. 도시화된 주들이 일반적으로:

  • 높은 맥주세 (progressive taxation)
  • 높은 교통량 → 높은 사고율
  • 결과: 양의 상관관계 (spurious)

First difference는 시간불변 특성을 제거하여 진짜 효과(-1.04)를 보여줍니다.

(b) Omitted variables:

  • 교통 밀도: 도시 vs 시골
  • 도로 품질: 주별 인프라 투자
  • 음주 문화: 지역별 음주운전 관용도
  • 법 집행 강도: 경찰 밀도, 단속 빈도

(c) 계수 해석:

맥주세가 $1 증가하면, 같은 주 내에서 시간에 따라 교통사고 사망률이 연간 10,000명당 0.66명 감소합니다. 이는 주별 고정효과를 통제한 후의 within-state variation을 이용한 추정치입니다.

(d) Time fixed effects 필요성:

  • 자동차 안전기술 발전 (에어백, ABS)
  • 전국적 음주운전 캠페인
  • 연방 고속도로 안전 규제
  • 경기 변동 (경제 호황/불황)
Problem 2

A researcher estimates three models for mortgage denial:

LPM: $\widehat{deny} = -0.091 + 0.559 \times P/I + 0.177 \times Black$
Probit: $\widehat{Pr(deny=1)} = \Phi(-2.26 + 2.74 \times P/I + 0.71 \times Black)$
Logit: $\widehat{Pr(deny=1)} = F(-4.13 + 5.37 \times P/I + 1.27 \times Black)$

(a) For a Black applicant with P/I ratio = 0.3, calculate the predicted probability of denial using all three models.
(b) For the same applicant, if P/I ratio increases to 0.4, what is the change in denial probability for each model?
(c) What is the racial gap in denial probability at P/I = 0.3 using the Probit model?
(d) Discuss the advantages and disadvantages of each model.

Solution

(a) Black applicant, P/I = 0.3:

LPM:

$\hat{Pr} = -0.091 + 0.559(0.3) + 0.177(1) = 0.254$ (25.4%)

Probit:

$z = -2.26 + 2.74(0.3) + 0.71(1) = -0.73$

$\hat{Pr} = \Phi(-0.73) = 0.233$ (23.3%)

Logit:

$\hat{Pr} = \frac{1}{1 + e^{-(-4.13 + 5.37(0.3) + 1.27(1))}} = \frac{1}{1 + e^{1.25}} = 0.223$ (22.3%)

(b) P/I ratio 0.3 → 0.4 변화 효과:

LPM: 일정하게 5.59%p 증가

Probit (P/I = 0.4):

$z = -0.73 + 2.74(0.1) = -0.456$

$\hat{Pr} = \Phi(-0.456) = 0.324$

변화: 32.4% - 23.3% = 9.1%p

Logit (P/I = 0.4):

$\hat{Pr} = \frac{1}{1 + e^{0.713}} = 0.329$

변화: 32.9% - 22.3% = 10.6%p

(c) Racial gap (Probit, P/I = 0.3):

White: $\Phi(-2.26 + 2.74(0.3)) = \Phi(-1.44) = 0.075$

Black: 0.233 (위에서 계산)

Gap: 23.3% - 7.5% = 15.8%p

(d) 모델 비교:

LPM: 장점: 간단한 해석, OLS 사용
단점: 확률 범위 벗어남, constant ME 비현실적
Probit: 장점: 이론적 근거(정규분포), 0-1 범위
단점: 표 필요, ME 계산 복잡
Logit: 장점: Odds ratio 해석, 계산 용이
단점: 극단값에 민감
Problem 3 (종합)

음주운전 단속이 음주운전 여부에 미치는 영향을 분석하려고 합니다.
데이터: 30개 도시, 5년간 (2019-2023)
변수: DrunkDriving (1=적발, 0=미적발), Checkpoints (단속 횟수), City characteristics

(a) 왜 cross-sectional analysis가 문제가 될 수 있는지 설명하시오.
(b) Panel data를 사용한 fixed effects logit model을 제시하시오.
(c) 다음 결과를 해석하시오:
Fixed Effects Logit: $\widehat{Pr(DD=1)} = F(-2.5 + 0.3 \times Checkpoints + City FE)$
(d) Clustered standard errors가 필요한 이유를 설명하시오.

Solution

(a) Cross-sectional analysis의 문제:

  • 음주 문화: 도시별로 다른 음주운전 관용도
  • 대중교통: 잘 발달한 도시는 음주운전 적음 + 단속도 많음
  • 소득 수준: 부유한 도시는 택시/대리운전 이용 많음
  • 인구 밀도: 밀집 지역은 단속 효율적 + 음주운전 위험

이런 요인들이 단속 횟수와 상관되어 bias 발생

(b) Fixed Effects Logit Model:

$$Pr(DrunkDriving_{it} = 1) = F(\beta_1 Checkpoints_{it} + \alpha_i + u_{it})$$

where:

  • $\alpha_i$ = city fixed effects (도시별 고정효과)
  • 시간불변 도시 특성 모두 통제
  • Within-city variation 이용

(c) 결과 해석:

단속 횟수가 10회 증가할 때:

• Linear predictor 증가: $0.3 \times 10 = 3$

• 기준점 (Checkpoints = 0): $Pr = \frac{1}{1+e^{2.5}} = 0.076$

• 10회 단속: $Pr = \frac{1}{1+e^{-0.5}} = 0.378$

• 효과: 7.6% → 37.8% (약 5배 증가)

(d) Clustered SE 필요성:

  • 시계열 상관: 같은 도시의 연도별 관측치 연관
  • 정책 지속성: 단속 정책은 급변하지 않음
  • 문화적 지속성: 음주 문화는 천천히 변화
  • 결과: 일반 SE는 과소추정 → Type I error ↑

Exam 2를 위한 핵심 체크리스트

Panel Data

• First differencing vs Entity demeaning vs Binary regressors

• State FE + Time FE = Two-way fixed effects

• Always use clustered SE with panel data

• Key assumption: Time-invariant omitted variables

Binary Dependent Variables

• LPM: Simple but flawed (범위 문제)

• Probit: $\Phi(\beta_0 + \beta_1 X)$ - 정규분포 CDF

• Logit: $\frac{1}{1+e^{-(\beta_0+\beta_1 X)}}$ - 직접 계산 가능

• Marginal effects는 X값에 따라 변함

실전 팁

• STATA 명령어: xtreg (FE), probit, logit

• 계수 해석 주의: units vs percentage points

• 가설검정: Individual vs Joint significance

• 항상 경제적 의미 고려하기