Big Picture: 왜 이 두 주제가 중요한가?
기초Multiple regression으로도 해결할 수 없는 문제가 있습니다. 관찰할 수 없거나 측정할 수 없는 변수들!
• 개인의 타고난 능력 (ability)
• 지역의 문화 (culture)
• 기업의 경영 철학 (management philosophy)
Solution → Panel Data! 시간에 따라 변하지 않는 omitted variables를 제거할 수 있습니다.
Challenge 2: Wrong Functional Form
Y가 0 또는 1의 값만 가질 때 (binary outcome), 선형 모델의 문제점:
• 예측값이 0보다 작거나 1보다 클 수 있음
• 확률로 해석할 수 없음
• Marginal effect가 일정하다는 비현실적 가정
Solution → Probit/Logit! S자 곡선으로 확률을 모델링합니다.
Lecture 9의 핵심 목표
Panel Data로 OVB 해결하기
같은 개체를 여러 시점에서 관찰하여 시간불변 특성 제거
Binary Outcomes 올바르게 모델링하기
LPM, Probit, Logit의 차이점과 각각의 장단점 이해
실제 응용 사례 분석
음주운전 법률과 모기지 차별 사례를 통한 실전 이해
Panel Data: What and Why
기초Panel data는 multiple entities를 multiple time periods에 걸쳐 관찰한 데이터입니다.
- 교육: 420개 학군을 1999년과 2000년에 관찰 (840 observations)
- 경제: 50개 주를 3년간 관찰 (150 observations)
- 노동: 1000명의 개인을 4개월간 추적 (4000 observations)
Notation for Panel Data
- i = entity (개체: 사람, 기업, 주, 국가 등), i = 1, ..., n
- t = time period (시간: 년, 월, 분기 등), t = 1, ..., T
- $Y_{it}$ = Y의 값 for entity i at time t
- Balanced panel: 모든 entity가 모든 time period에 관찰됨 (no missing)
Cross-sectional data (스냅샷):
• 2024년 각 주의 교통사고 사망률과 맥주세
• 문제: 캘리포니아의 높은 교통량? 텍사스의 음주 문화?
Panel data (영화):
• 각 주를 1982-1988년 동안 매년 관찰
• 핵심: 주마다의 고유한 특성은 시간이 지나도 변하지 않음!
• 따라서 이런 특성들의 효과를 제거할 수 있음
마치 쌍둥이 연구와 비슷합니다. 유전자가 같은 쌍둥이의 차이를 보면, 유전자 효과는 자동으로 제거됩니다!
연구 질문: Does increasing beer tax reduce traffic fatalities?
Cross-sectional 결과 (놀라운 발견!):
맥주세가 높을수록 교통사고가 더 많다?! 😱
• 도시 지역: 교통량 많음 → 사고 많음, 세금 높음
• 시골 지역: 교통량 적음 → 사고 적음, 세금 낮음
• 결과: 양의 상관관계 (spurious!)
Fixed Effects Regression
중급Panel data의 핵심 아이디어는 간단합니다:
여기서 $Z_i$는 시간에 따라 변하지 않는 entity의 특성입니다.
1988년: $Y_{i,1988} = \beta_0 + \beta_1 X_{i,1988} + \beta_2 Z_i + u_{i,1988}$
1982년: $Y_{i,1982} = \beta_0 + \beta_1 X_{i,1982} + \beta_2 Z_i + u_{i,1982}$
빼면: $Y_{i,1988} - Y_{i,1982} = \beta_1(X_{i,1988} - X_{i,1982}) + (u_{i,1988} - u_{i,1982})$
$Z_i$가 사라졌습니다! 시간에 따라 변하지 않으므로 차분하면 제거됩니다.
이것은 마치 체중 감량 전후 사진처럼, 같은 사람의 변화만 보는 것입니다. 키, 골격, 유전자 등은 자동으로 control됩니다!
Difference regression (n=48):
해석: 맥주세가 $1 증가하면 교통사고 사망률이 연간 10,000명당 1.04명 감소합니다!
• Cross-sectional: +0.44 (맥주세 ↑ → 사망 ↑)
• Panel (차분): -1.04 (맥주세 ↑ → 사망 ↓)
• 부호가 완전히 반대! OVB의 심각성을 보여줍니다.
두 가지 표현 방법
1. "n-1 binary regressors" form:
where $D2_i = 1$ if entity is #2, 0 otherwise (더미 변수)
2. "Fixed effects" form:
where $\alpha_i$ = entity i의 고정 효과 (fixed effect)
3개 주(CA, TX, MA)가 있다고 생각해보세요:
• $D_{CA} + D_{TX} + D_{MA} = 1$ (항상!)
• 이것은 상수항과 perfect multicollinearity
• 따라서 하나를 빼야 합니다 (reference group)
마치 "남자/여자" 더미에서 하나만 넣는 것과 같습니다!
Fixed effects를 추정하는 가장 효율적인 방법입니다:
- 각 entity의 평균 계산: $$\bar{Y}_i = \frac{1}{T}\sum_{t=1}^{T} Y_{it}, \quad \bar{X}_i = \frac{1}{T}\sum_{t=1}^{T} X_{it}$$
- 평균에서의 편차 계산: $$\tilde{Y}_{it} = Y_{it} - \bar{Y}_i, \quad \tilde{X}_{it} = X_{it} - \bar{X}_i$$
- Demeaned 변수로 회귀분석: $$\tilde{Y}_{it} = \beta_1 \tilde{X}_{it} + \tilde{u}_{it}$$
xtset state year // panel data 선언
xtreg vfrall beertax, fe vce(cluster state) // fixed effects with clustered SE
결과:
Application: Drunk Driving Laws and Traffic Deaths
중급때로는 시간에 따라 변하지만 모든 entity에 동일하게 영향을 미치는 요인들도 있습니다:
- 기술 발전: 에어백, ABS 등 자동차 안전 기술
- 연방 정책: 전국적 음주운전 캠페인
- 경제 상황: 전국적 경기 침체나 호황
where:
- $\alpha_i$ = entity fixed effects (주별 고정 효과)
- $\lambda_t$ = time fixed effects (연도별 고정 효과)
| 모델 | Beer Tax 계수 | SE | State FE | Time FE | Clustered SE |
|---|---|---|---|---|---|
| Cross-sectional | 0.44 | (0.13) | No | No | No |
| State FE only | -0.66** | (0.29) | Yes | No | Yes |
| Two-way FE | -0.64* | (0.36) | Yes | Yes | Yes |
* p < 0.10, ** p < 0.05
문제: 같은 주의 관측치들은 서로 독립적이지 않습니다
• 2020년 캘리포니아와 2021년 캘리포니아는 연관성이 높음
• 하지만 캘리포니아와 텍사스는 독립적
결과: 일반 SE는 표준오차를 과소평가합니다
• Type I error 증가 (잘못된 기각)
• 실제보다 더 유의해 보임
해결: Clustered SE는 entity 내 상관관계를 고려합니다
• 보통 더 큰 표준오차
• 더 보수적인 추론
이것은 마치 가족 구성원들의 키를 독립적인 관측치로 보는 것과 같은 실수를 방지합니다!
• Panel data에서는 항상 clustered SE 사용
• STATA: vce(cluster state)
• R: cluster.vcov
• Python: cov_type='cluster'
Binary Dependent Variables: Introduction
기초많은 중요한 경제적 결정은 Yes/No의 형태입니다:
- 고용: 취업/미취업
- 대학 진학: 합격/불합격
- 대출 승인: 승인/거절
- 구매 결정: 구매/미구매
- 투표: 찬성/반대
가장 단순한 접근: OLS를 그대로 사용!
핵심 통찰: $E(Y|X) = Pr(Y=1|X)$
$E(Y|X) = 0 \times Pr(Y=0|X) + 1 \times Pr(Y=1|X) = Pr(Y=1|X)$
따라서 조건부 평균은 곧 확률입니다!
이것은 마치 동전 던지기에서 "앞면의 평균"이 "앞면이 나올 확률"과 같은 것입니다.
모델: deny = $\beta_0 + \beta_1$ P/I ratio + u
결과:
해석:
- P/I ratio = 0.3: $\hat{Pr}(deny=1) = -0.080 + 0.604(0.3) = 0.101$ (10.1%)
- P/I ratio = 0.4: $\hat{Pr}(deny=1) = -0.080 + 0.604(0.4) = 0.162$ (16.2%)
- 효과: P/I ratio가 0.1 증가 → 거절 확률 6.04%p 증가
• P/I ratio = 0: $\hat{Pr} = -0.080$ (음수 확률?!)
• P/I ratio = 1.8: $\hat{Pr} = 1.007$ (100% 초과?!)
• 확률은 반드시 [0, 1] 범위여야 합니다!
Probit and Logit Regression
고급핵심 아이디어: 선형 대신 S자 곡선 (sigmoid) 사용!
where $\Phi$ = cumulative standard normal distribution function
1. 잠재변수 $Y^*$: 대출 승인의 "점수"라고 생각
$Y^* = \beta_0 + \beta_1 X + u$, where $u \sim N(0,1)$
2. 관찰되는 결과:
$Y = 1$ if $Y^* > 0$ (점수가 임계값을 넘으면 승인)
$Y = 0$ if $Y^* \leq 0$
3. 확률 계산:
$Pr(Y=1|X) = Pr(Y^* > 0) = Pr(u > -\beta_0 - \beta_1 X) = \Phi(\beta_0 + \beta_1 X)$
이것은 마치 대학 입시에서 내부 점수는 연속적이지만, 우리가 보는 것은 합격/불합격뿐인 것과 같습니다!
추정 결과:
P/I ratio = 0.3일 때 계산:
- z-value 계산: $z = -2.19 + 2.97(0.3) = -1.30$
- 표준정규분포표 확인: $\Phi(-1.30) = 0.097$
- 해석: 대출 거절 확률 = 9.7%
P/I ratio = 0.4일 때:
- z-value: $z = -2.19 + 2.97(0.4) = -1.00$
- $\Phi(-1.00) = 0.159$
- 대출 거절 확률 = 15.9%
Marginal effect: 0.3 → 0.4로 증가시 6.2%p 증가
Logit은 logistic distribution 사용:
$\beta_0 = -3, \beta_1 = 2, X = 0.4$일 때:
1. 지수 계산: $\beta_0 + \beta_1 X = -3 + 2(0.4) = -2.2$
2. 확률 계산: $Pr(Y=1) = \frac{1}{1 + e^{-(-2.2)}} = \frac{1}{1 + e^{2.2}} = \frac{1}{1 + 9.03} = 0.0998$
LPM vs Probit vs Logit 비교
| 특징 | LPM | Probit | Logit |
|---|---|---|---|
| 함수 형태 | Linear | Normal CDF | Logistic CDF |
| 예측 범위 | (-∞, ∞) | [0, 1] | [0, 1] |
| Marginal Effect | Constant | Variable | Variable |
| 추정 방법 | OLS | MLE | MLE |
| 계산 용이성 | 매우 쉬움 | 표 필요 | 직접 계산 가능 |
| 해석 | %p 변화 | z-value 변화 | log odds 변화 |
• Probit과 Logit의 예측 확률은 거의 동일 (차이 < 0.01)
• 계수 크기는 다름: Logit ≈ 1.6 × Probit
• 경제학: Probit 선호 (정규분포 가정)
• 의학/역학: Logit 선호 (odds ratio 해석)
Practice Problems
실전You are studying the effect of beer tax on traffic fatalities using panel data from 48 states over 7 years. Consider the following results:
(1) Cross-sectional (1988): $\widehat{FatalityRate} = 1.86 + 0.44 \times BeerTax$
(2) First difference: $\widehat{\Delta FatalityRate} = -0.072 - 1.04 \times \Delta BeerTax$
(3) Fixed effects: $\widehat{FatalityRate} = -0.66 \times BeerTax + State FE$
(a) Explain why the coefficient on BeerTax changes sign between (1) and (2).
(b) What omitted variables might be causing bias in (1)?
(c) Interpret the coefficient -0.66 in model (3).
(d) Why might you want to add time fixed effects to model (3)?
(a) Sign change 설명:
Cross-sectional 분석에서는 omitted variable bias가 심각합니다. 도시화된 주들이 일반적으로:
- 높은 맥주세 (progressive taxation)
- 높은 교통량 → 높은 사고율
- 결과: 양의 상관관계 (spurious)
First difference는 시간불변 특성을 제거하여 진짜 효과(-1.04)를 보여줍니다.
(b) Omitted variables:
- 교통 밀도: 도시 vs 시골
- 도로 품질: 주별 인프라 투자
- 음주 문화: 지역별 음주운전 관용도
- 법 집행 강도: 경찰 밀도, 단속 빈도
(c) 계수 해석:
맥주세가 $1 증가하면, 같은 주 내에서 시간에 따라 교통사고 사망률이 연간 10,000명당 0.66명 감소합니다. 이는 주별 고정효과를 통제한 후의 within-state variation을 이용한 추정치입니다.
(d) Time fixed effects 필요성:
- 자동차 안전기술 발전 (에어백, ABS)
- 전국적 음주운전 캠페인
- 연방 고속도로 안전 규제
- 경기 변동 (경제 호황/불황)
A researcher estimates three models for mortgage denial:
LPM: $\widehat{deny} = -0.091 + 0.559 \times P/I + 0.177 \times Black$
Probit: $\widehat{Pr(deny=1)} = \Phi(-2.26 + 2.74 \times P/I + 0.71 \times Black)$
Logit: $\widehat{Pr(deny=1)} = F(-4.13 + 5.37 \times P/I + 1.27 \times Black)$
(a) For a Black applicant with P/I ratio = 0.3, calculate the predicted probability of denial using all three models.
(b) For the same applicant, if P/I ratio increases to 0.4, what is the change in denial probability for each model?
(c) What is the racial gap in denial probability at P/I = 0.3 using the Probit model?
(d) Discuss the advantages and disadvantages of each model.
(a) Black applicant, P/I = 0.3:
LPM:
$\hat{Pr} = -0.091 + 0.559(0.3) + 0.177(1) = 0.254$ (25.4%)
Probit:
$z = -2.26 + 2.74(0.3) + 0.71(1) = -0.73$
$\hat{Pr} = \Phi(-0.73) = 0.233$ (23.3%)
Logit:
$\hat{Pr} = \frac{1}{1 + e^{-(-4.13 + 5.37(0.3) + 1.27(1))}} = \frac{1}{1 + e^{1.25}} = 0.223$ (22.3%)
(b) P/I ratio 0.3 → 0.4 변화 효과:
LPM: 일정하게 5.59%p 증가
Probit (P/I = 0.4):
$z = -0.73 + 2.74(0.1) = -0.456$
$\hat{Pr} = \Phi(-0.456) = 0.324$
변화: 32.4% - 23.3% = 9.1%p
Logit (P/I = 0.4):
$\hat{Pr} = \frac{1}{1 + e^{0.713}} = 0.329$
변화: 32.9% - 22.3% = 10.6%p
(c) Racial gap (Probit, P/I = 0.3):
White: $\Phi(-2.26 + 2.74(0.3)) = \Phi(-1.44) = 0.075$
Black: 0.233 (위에서 계산)
Gap: 23.3% - 7.5% = 15.8%p
(d) 모델 비교:
| LPM: | 장점: 간단한 해석, OLS 사용 단점: 확률 범위 벗어남, constant ME 비현실적 |
| Probit: | 장점: 이론적 근거(정규분포), 0-1 범위 단점: 표 필요, ME 계산 복잡 |
| Logit: | 장점: Odds ratio 해석, 계산 용이 단점: 극단값에 민감 |
음주운전 단속이 음주운전 여부에 미치는 영향을 분석하려고 합니다.
데이터: 30개 도시, 5년간 (2019-2023)
변수: DrunkDriving (1=적발, 0=미적발), Checkpoints (단속 횟수), City characteristics
(a) 왜 cross-sectional analysis가 문제가 될 수 있는지 설명하시오.
(b) Panel data를 사용한 fixed effects logit model을 제시하시오.
(c) 다음 결과를 해석하시오:
Fixed Effects Logit: $\widehat{Pr(DD=1)} = F(-2.5 + 0.3 \times Checkpoints + City FE)$
(d) Clustered standard errors가 필요한 이유를 설명하시오.
(a) Cross-sectional analysis의 문제:
- 음주 문화: 도시별로 다른 음주운전 관용도
- 대중교통: 잘 발달한 도시는 음주운전 적음 + 단속도 많음
- 소득 수준: 부유한 도시는 택시/대리운전 이용 많음
- 인구 밀도: 밀집 지역은 단속 효율적 + 음주운전 위험
이런 요인들이 단속 횟수와 상관되어 bias 발생
(b) Fixed Effects Logit Model:
where:
- $\alpha_i$ = city fixed effects (도시별 고정효과)
- 시간불변 도시 특성 모두 통제
- Within-city variation 이용
(c) 결과 해석:
단속 횟수가 10회 증가할 때:
• Linear predictor 증가: $0.3 \times 10 = 3$
• 기준점 (Checkpoints = 0): $Pr = \frac{1}{1+e^{2.5}} = 0.076$
• 10회 단속: $Pr = \frac{1}{1+e^{-0.5}} = 0.378$
• 효과: 7.6% → 37.8% (약 5배 증가)
(d) Clustered SE 필요성:
- 시계열 상관: 같은 도시의 연도별 관측치 연관
- 정책 지속성: 단속 정책은 급변하지 않음
- 문화적 지속성: 음주 문화는 천천히 변화
- 결과: 일반 SE는 과소추정 → Type I error ↑
Exam 2를 위한 핵심 체크리스트
Panel Data
• First differencing vs Entity demeaning vs Binary regressors
• State FE + Time FE = Two-way fixed effects
• Always use clustered SE with panel data
• Key assumption: Time-invariant omitted variables
Binary Dependent Variables
• LPM: Simple but flawed (범위 문제)
• Probit: $\Phi(\beta_0 + \beta_1 X)$ - 정규분포 CDF
• Logit: $\frac{1}{1+e^{-(\beta_0+\beta_1 X)}}$ - 직접 계산 가능
• Marginal effects는 X값에 따라 변함
실전 팁
• STATA 명령어: xtreg (FE), probit, logit
• 계수 해석 주의: units vs percentage points
• 가설검정: Individual vs Joint significance
• 항상 경제적 의미 고려하기