Overview: Why Panel Data and Binary Variables?
기초생생한 비유:
Panel Data는 "성장 일기"와 같습니다. 한 아이의 키를 매년 측정하면, 그 아이만의 성장 패턴을 볼 수 있죠. 여러 아이들의 성장 일기를 모으면, 개인차와 시간에 따른 변화를 동시에 분석할 수 있습니다.
Binary Variables는 "스위치"와 같습니다. 불이 켜져 있거나(1) 꺼져 있거나(0), 중간은 없죠.
예를 들어보세요:
• 고용 상태: 같은 사람이 시간에 따라 취업(1)/실업(0)을 반복합니다
• 흡연 여부: 금연 정책이 시간에 따라 흡연율(0 or 1)에 미치는 영향을 분석합니다
• 대출 승인: 같은 은행이 여러 고객에게 시간에 따라 대출을 승인(1)/거절(0)합니다
• Panel data에서 "within" vs "between" variation 구분하기
• Binary model에서 coefficient ≠ marginal effect임을 명심
• Fixed Effects가 time-invariant variables를 제거하는 이유 이해
이번 챕터의 핵심 개념들 (상세 버전)
Panel Data의 두 가지 차원
• Cross-sectional dimension (i): 개체 (사람, 기업, 국가)
• Time series dimension (t): 시간 (년도, 분기, 월)
• 표기법: $Y_{it}$ = i번째 개체의 t시점 관측값
• i = 학생 번호 (김철수, 이영희, ...)
• t = 학기 (1학년 1학기, 1학년 2학기, ...)
• $Y_{it}$ = 김철수의 1학년 1학기 성적
Binary Dependent Variables의 세 가지 모델
• Linear Probability Model (LPM): 단순하지만 문제점 존재
• Probit: 정규분포 기반 (normal CDF)
• Logit: 로지스틱 분포 기반 (logistic CDF)
• LPM: 직선 자를 사용해 곡선을 그리려는 것
• Probit/Logit: 부드러운 S자 곡선 자를 사용하는 것
극단값에서 LPM은 120% 확률 같은 말도 안 되는 예측을 할 수 있습니다!
왜 중요한가? (시험 출제 포인트)
• Omitted Variable Bias 해결: Panel data로 시간불변 특성 제거
• 현실적인 예측: Binary models로 0과 1 사이의 확률 예측
• 정책 평가: 시간에 따른 정책 효과 분석 가능
• Coefficient 해석 시 "holding other variables constant" 빼먹지 마세요!
• Marginal effect는 평균값에서 계산하는 것이 일반적
• F-test는 joint significance, t-test는 individual significance
Panel Data: The Basics (심화)
중급Panel Data는 같은 개체들을 여러 시점에 걸쳐 반복 관측한 데이터입니다.
48개 미국 주(州)의 1982-1988년 데이터:
- i: 주(state) - California, Texas, New York, ...
- t: 연도 - 1982, 1983, ..., 1988
- Y: 교통사고 사망률 (deaths per 10,000)
- X: Beer tax, drinking age, unemployment rate 등
이것은 마치 48명의 학생(주)을 7년간(1982-1988) 추적 관찰하는 것과 같습니다.
• 각 학생은 고유한 특성이 있음 (California는 항상 날씨가 좋음)
• 시간에 따라 변하는 요인도 있음 (beer tax는 해마다 바뀔 수 있음)
• 우리는 이 두 가지를 분리해서 볼 수 있습니다!
장점:
- More information: n × T 개의 관측치 (더 많은 데이터!)
- Control for unobserved heterogeneity: 개체별 고정 특성 통제
- Study dynamics: 시간에 따른 변화 분석
- Reduce collinearity: Cross-section과 time-series의 변동 분리
문제점:
- Autocorrelation: 같은 개체의 시점간 상관관계
- Heteroscedasticity: 개체간 분산 차이
- Unbalanced panels: 일부 관측치 누락
- Attrition: 시간이 지나면서 표본 이탈
• Balanced vs Unbalanced panel 구분하기
• Clustered standard errors의 필요성 이해
• Within variation vs Between variation의 차이점
구체적인 예시:
California는:
• 항상 날씨가 좋아 운전 조건이 유리합니다 (시간불변)
• 자동차 문화가 발달해 운전 교육이 잘 되어 있습니다 (시간불변)
• 하지만 beer tax는 매년 바뀔 수 있습니다 (시간가변)
생생한 비유:
이는 마치 "키가 큰 사람이 농구를 잘한다"는 가설을 검증할 때,
• Cross-section: 여러 사람의 키와 농구 실력을 한 시점에 비교
• Panel: 같은 사람이 성장하면서 키와 실력이 어떻게 변하는지 추적
Panel data를 쓰면 타고난 운동신경(시간불변) 같은 것을 통제할 수 있습니다!
여기서:
- $\alpha_i$: Entity fixed effect (시간불변 개체 특성)
- $\varepsilon_{it}$: Idiosyncratic error (시간과 개체에 따라 변하는 오차)
- $\alpha_{California}$: 좋은 날씨, 운전 문화 등 (항상 일정)
- $\varepsilon_{California,1985}$: 1985년 California의 특별한 사건 (그 해만의 영향)
이것이 Fixed Effects가 필요한 이유입니다.
예시: 부유한 주일수록 beer tax가 높고 교통사고도 적다면?
→ OLS는 beer tax의 효과를 과대평가할 것입니다!
Fixed Effects: The Workhorse of Panel Data (심화)
중급핵심 아이디어: 각 개체마다 고유한 절편 $\alpha_i$를 허용합니다.
추정 방법 1: Entity Demeaning (Within Transformation)
- 각 개체의 시간 평균 계산: $\bar{Y}_i = \frac{1}{T}\sum_{t=1}^T Y_{it}$
- 원 데이터에서 평균 차감: $\tilde{Y}_{it} = Y_{it} - \bar{Y}_i$
- Demeaned regression 실행: $\tilde{Y}_{it} = \beta_1 \tilde{X}_{it} + \tilde{u}_{it}$
이는 마치 "각 학생의 평균 대비 성적 변화"를 보는 것입니다.
• 철수의 평균 성적: 80점
• 철수의 1학기 성적: 85점 → demeaned: +5점
• 철수의 2학기 성적: 75점 → demeaned: -5점
이렇게 하면 철수의 "타고난 똑똑함"은 제거되고 순수한 변화만 남습니다!
Regression (2) vs (3)의 비교:
| Variable | (2) No State FE | (3) With State FE | 해석 |
|---|---|---|---|
| Beer tax | -0.61** | -0.75*** | 주별 고정효과 통제 후 효과 증가 |
| Real income | 1.61* | 3.86** | Within-state variation만 사용 |
• Between variation 제거: 주(州)간 평균 차이 무시
• Within variation만 사용: 각 주 내에서의 시간 변화만 활용
• Omitted variable bias 감소: 주별 고유 특성 통제
구체적 예시:
• Nevada는 항상 사고율이 높음 (카지노, 음주 문화)
• Utah는 항상 사고율이 낮음 (종교적 영향)
• FE 없이는 이런 차이가 beer tax 효과와 섞임
• FE로 각 주의 "시간에 따른 변화"만 봄
• Beer tax 계수가 -0.61에서 -0.75로 변함 (절댓값 증가)
• 이는 positive OVB였음을 의미 (부유한 주가 tax도 높고 사고도 적음)
• 계수 부호가 바뀌면 더 극적인 OVB!
FE 추정치 $\hat{\beta}_1$의 의미:
"같은 개체 내에서 X가 1 단위 증가할 때 Y의 평균적 변화"
실생활 예시 (PS4 Problem 1):
- 맥주세 효과: 같은 주에서 beer tax가 $1 인상되면 교통사고 사망률이 0.75 감소
- 소득 효과: 같은 주에서 real income이 $1,000 증가하면 사망률이 3.86 증가(?!)
• 소득 증가 → 자동차 구매 증가 → 운전자 증가
• 소득 증가 → 여가 활동 증가 → 음주 운전 기회 증가
• 경제 호황기 → 교통량 증가 → 사고 위험 증가
이것이 바로 경제학의 묘미! 직관과 다른 결과가 나올 때 deeper thinking이 필요합니다.
예: 성별, 인종, 지리적 위치 등
시험 팁: "Why did the coefficient on gender disappear?"
→ "Because gender doesn't vary within individuals over time"
Fixed Effects vs Random Effects (시험 단골 문제)
Fixed Effects
• 가정: $\alpha_i$가 X와 상관됨 (Cov($\alpha_i$, $X_{it}$) ≠ 0)
• 추정: Within estimator (demeaning)
• 장점: Consistent even with correlation
• 단점: Time-invariant variables 추정 불가
• 언제 사용? 개체별 특성이 X와 관련될 때
Random Effects
• 가정: $\alpha_i$가 X와 무관 (Cov($\alpha_i$, $X_{it}$) = 0)
• 추정: GLS (Generalized Least Squares)
• 장점: More efficient if assumption holds
• 단점: Biased if correlation exists
• 언제 사용? Random sample from large population
• $H_0$: RE is consistent (both FE and RE are consistent)
• $H_1$: Only FE is consistent
• Reject $H_0$ → Use FE
• Fail to reject → Can use RE (more efficient)
Model: $Y_{it} = \beta_1 X_{it} + \alpha_i + \gamma_t + u_{it}$
여기서:
- $\alpha_i$: State fixed effects (주별 고유 특성)
- $\gamma_t$: Time fixed effects (연도별 공통 충격)
• 1985년 전국적 음주운전 단속 강화
• 1987년 경제 불황으로 전국적 운전 감소
• 이런 "시간 효과"를 통제하지 않으면 biased estimates!
• F-test for time effects: $H_0$: $\gamma_1 = \gamma_2 = ... = \gamma_T = 0$
• Significant → Include time FE
• Degrees of freedom 계산 주의!
Binary Dependent Variables: LPM, Probit, and Logit (완전 정복)
고급구체적 예시:
• 교육 20년, 경험 30년인 사람의 취업 확률 = 1.2? (불가능!)
• 교육 0년, 경험 0년인 사람의 흡연 확률 = -0.3? (말이 안 됨!)
생생한 비유:
이는 마치 온도계로 키를 재려는 것과 같습니다.
• LPM: 직선 자 (범위 제한 없음)
• Probit/Logit: S자 곡선 자 (0과 1 사이로 제한)
우리가 원하는 것: 0 ≤ P(Y=1|X) ≤ 1
해결책: Cumulative Distribution Function (CDF) 사용!
장점:
- 간단한 해석: $\beta_1$ = X가 1 증가할 때 확률의 변화 (percentage points)
- OLS로 추정 가능
- Marginal effect가 constant
- 계산이 쉽고 직관적
단점:
- 예측값이 [0,1] 범위를 벗어날 수 있음
- Heteroscedasticity 문제 (always use robust SE!)
- Marginal effect가 constant라는 비현실적 가정
- 극단값에서 말도 안 되는 예측
$\widehat{inlf} = 0.586 - 0.0034 \times nwifeinc + 0.038 \times educ - 0.206 \times kidslt6$
해석:
- 6세 미만 자녀 1명 → 노동 참여 확률 20.6%p 감소
- 교육 1년 증가 → 노동 참여 확률 3.8%p 증가
- 남편 소득 $1,000 증가 → 참여 확률 0.34%p 감소
여기서 $\Phi(\cdot)$는 표준정규분포의 CDF입니다.
숨겨진 변수(latent variable) $Y^*$를 상상해보세요:
- $Y^* = \beta_0 + \beta_1 X + u$, where $u \sim N(0,1)$
- $Y = 1$ if $Y^* > 0$ (threshold 초과)
- $Y = 0$ if $Y^* ≤ 0$
• $Y^*$ = "일하고 싶은 욕구" (관측 불가)
• $Y$ = 실제 노동 참여 (관측 가능)
• 욕구가 0을 넘으면 일하러 나감!
Probit에서 coefficient ≠ marginal effect!
반드시 After-Before method 사용:
1. $P(Y=1|X, D=1) = \Phi(\beta_0 + \beta_1 X + \beta_2)$
2. $P(Y=1|X, D=0) = \Phi(\beta_0 + \beta_1 X)$
3. Effect = 차이
이것은 logistic CDF입니다.
• 매우 유사한 결과 (coefficients는 약 1.6배 차이)
• Logit이 계산상 편리 (closed form)
• Probit이 이론적으로 깔끔 (normal distribution)
• 실무에서는 둘 다 acceptable
$\ln\left(\frac{P}{1-P}\right) = \beta_0 + \beta_1 X$
→ X가 1 증가하면 odds ratio가 $e^{\beta_1}$배 증가
세 모델의 Marginal Effect 비교 (education = 12.46):
| Model | Coefficient | Marginal Effect | 계산 방법 |
|---|---|---|---|
| LPM | -0.122 | -0.122 (12.2%p) | 계수 그대로 |
| Probit | -0.397 | -0.131 (13.1%p) | After-Before method |
| Logit | -0.679 | -0.132 (13.2%p) | After-Before method |
• LPM: 직선
• Probit/Logit: S-curve이지만 중간은 거의 직선
하지만 극단값에서는 크게 달라집니다!
• 고학력자(educ=19): LPM은 여전히 -12.2%p, Probit/Logit은 더 작음
• 저학력자(educ=0): LPM은 여전히 -12.2%p, Probit/Logit은 더 큼
상세 계산 과정 (시험 필수!):
Probit:
- With alcdep: $\Phi(-0.311 - 0.397 + 0.096 × 12.46) = \Phi(0.485) = 0.686$
- Without alcdep: $\Phi(-0.311 + 0.096 × 12.46) = \Phi(0.885) = 0.812$
- Effect: 0.686 - 0.812 = -0.126 ≈ -0.131 (반올림 차이)
Logit:
- With alcdep: $\frac{1}{1 + e^{-(-0.565-0.679+0.164×12.46)}} = \frac{1}{1 + e^{-0.776}} = 0.685$
- Without alcdep: $\frac{1}{1 + e^{-(-0.565+0.164×12.46)}} = \frac{1}{1 + e^{-1.455}} = 0.811$
- Effect: 0.685 - 0.811 = -0.126 ≈ -0.132
Marginal Effects 계산법 완전 정리
Linear Probability Model
Marginal Effect = $\beta$
항상 일정합니다!
Probit
After-Before Method:
- $P(Y=1|X, D=1) = \Phi(\beta_0 + \beta_1 X + \beta_2)$
- $P(Y=1|X, D=0) = \Phi(\beta_0 + \beta_1 X)$
- Difference = Effect of D
Logit
After-Before Method:
- $P(Y=1|X, D=1) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X + \beta_2)}}$
- $P(Y=1|X, D=0) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}}$
- Difference = Effect of D
Model Comparison and Selection (전략적 접근)
고급Panel Data Methods:
| 상황 | 추천 방법 | 이유 | 예시 |
|---|---|---|---|
| Unobserved heterogeneity 의심 | Fixed Effects | $\alpha_i$와 X의 상관관계 제거 | 주별 문화가 beer tax와 관련 |
| Time-invariant variables 중요 | Random Effects | 성별, 인종 등의 효과 추정 가능 | 성별이 임금에 미치는 영향 |
| Both time & entity effects | Two-way FE | 시간과 개체 효과 동시 통제 | 주별 특성 + 연도별 정책 |
| Dynamic effects | First Differences | $\Delta Y_{it} = \beta \Delta X_{it} + \Delta u_{it}$ | 정책 변화의 즉각적 효과 |
Binary Outcome Methods:
| 상황 | 추천 방법 | 이유 | 주의사항 |
|---|---|---|---|
| 간단한 해석 필요 | LPM | 계수 = marginal effect | Robust SE 필수! |
| 극단값 많음 | Probit/Logit | 확률을 [0,1]로 제한 | 평균에서 ME 계산 |
| 이론적 근거 중요 | Probit | Latent variable interpretation | 정규분포 가정 |
| Odds ratio 해석 | Logit | $e^{\beta}$ = odds ratio 변화 | 의학/역학 연구 |
상황: 5,412명의 근로자를 2008-2009년 추적 관찰
• 2008년: 모두 고용됨
• 2009년: 일부는 실업
• 질문: 어떤 요인이 고용 유지에 영향을 미치는가?
방법 1: Fixed Effects LPM
• 간단하지만 확률 예측의 문제
• Within transformation 후 OLS
방법 2: Conditional Logit (고급)
• Fixed effects를 condition out
• Time-invariant outcome인 사람은 제외됨
• Chamberlain (1980) method
실무 팁: 대부분 FE LPM으로 충분!
• "Can we use probit with fixed effects?"
→ No! Incidental parameters problem
• "What about random effects probit?"
→ Yes, but assumes $\alpha_i \perp X_{it}$
1. Hausman Test (FE vs RE):
1. FE 추정 → $\hat{\beta}_{FE}$ (always consistent)
2. RE 추정 → $\hat{\beta}_{RE}$ (efficient under $H_0$)
3. $\chi^2 = (\hat{\beta}_{FE} - \hat{\beta}_{RE})'[\text{Var}(\hat{\beta}_{FE}) - \text{Var}(\hat{\beta}_{RE})]^{-1}(\hat{\beta}_{FE} - \hat{\beta}_{RE})$
4. Reject if $\chi^2 > \chi^2_{critical}$
2. F-test for Time Effects:
F-statistic = 21.6, p-value = 0.00
→ Strong evidence for time effects!
→ Include year dummies in the model
3. Likelihood Ratio Test (Binary Models):
LPM vs Probit/Logit 비교는 직접 불가능 (non-nested)
대신 사용:
- Pseudo-$R^2$ 비교
- 예측 정확도 (% correctly predicted)
- AIC/BIC 정보 기준
Exam Practice Problems (실전 연습)
실전Consider the following regression results for airfare data (Question 4, Exam 2):
Model without fixed effects:
$\widehat{\log(fare)} = 5.40 - 0.49 \times concen$
Model with route fixed effects:
$\widehat{\log(fare)} = 5.03 + 0.10 \times concen$
where $concen$ is the market share of the largest airline on a route.
(a) Interpret both coefficients.
(b) Why do they have opposite signs?
(c) Which estimate is more credible and why?
(d) If $concen$ increases from 50% to 60%, what is the fare change in model 2?
(a) Interpretation:
- Without FE: Routes with 1%p higher concentration have 49% lower fares on average
- With FE: When concentration increases by 1%p on the same route, fares increase by 10%
(b) Why opposite signs?
Omitted Variable Bias!
경쟁이 치열한 노선(낮은 concentration)은 보통:
- • 수요가 많은 인기 노선 (NYC-LA)
- • 기본 운임이 높음
- • Cross-section에서는 negative correlation
하지만 같은 노선 내에서 독점력이 증가하면 → 가격 인상!
이는 마치 "키 큰 사람이 농구를 잘한다"는 상관관계와
"같은 사람이 키가 클 때 농구를 더 잘한다"의 차이!
• Cross-section: NBA 선수들은 키도 크고 실력도 좋음
• Within: 개인이 성장하면서의 변화
(c) More credible estimate:
Fixed effects estimate (+0.10)가 더 신뢰할 만합니다.
이유: Route-specific characteristics (거리, 수요, 공항 시설 등) 통제
(d) Fare change calculation:
$\Delta \log(fare) = 0.10 \times (60 - 50) = 0.10 \times 10 = 1.0$
→ log 변화가 1.0이므로 fare는 약 100% 증가... 아닙니다!
정확한 계산: $e^{1.0} - 1 = 1.718... ≈ 171.8\%$ 증가
하지만 보통 작은 변화에서는 log 변화 ≈ percentage 변화
Employment status regression results (Question 3, Exam 2):
Variables: $alcdep$ (alcohol dependency), $educ$ (years of education)
Sample mean of educ = 12.46 years
LPM: $\widehat{employed} = 0.460 - 0.122 \times alcdep + 0.027 \times educ$
Probit: coefficients are $\beta_0 = -0.311$, $\beta_{alcdep} = -0.397$, $\beta_{educ} = 0.096$
Logit: coefficients are $\beta_0 = -0.565$, $\beta_{alcdep} = -0.679$, $\beta_{educ} = 0.164$
(a) Calculate the effect of alcohol dependency on employment probability for someone with 12 years of education using all three models.
(b) Calculate a 95% confidence interval for the LPM estimate (SE = 0.040).
(c) Which model would you prefer and why?
(d) For a college graduate (16 years), how do the marginal effects change?
(a) Marginal effects at educ = 12:
LPM: -0.122 (직접 읽기)
Probit (상세 계산):
• Step 1: Index with alcdep = $-0.311 - 0.397 + 0.096 \times 12 = 0.444$
• Step 2: $\Phi(0.444) = 0.671$ (표준정규분포표 사용)
• Step 3: Index without alcdep = $-0.311 + 0.096 \times 12 = 0.841$
• Step 4: $\Phi(0.841) = 0.800$
• Effect: 0.671 - 0.800 = -0.129
Logit (상세 계산):
• Step 1: Index with alcdep = $-0.565 - 0.679 + 0.164 \times 12 = 0.724$
• Step 2: $P = \frac{1}{1 + e^{-0.724}} = \frac{1}{1 + 0.485} = 0.673$
• Step 3: Index without alcdep = $-0.565 + 0.164 \times 12 = 1.403$
• Step 4: $P = \frac{1}{1 + e^{-1.403}} = \frac{1}{1 + 0.246} = 0.803$
• Effect: 0.673 - 0.803 = -0.130
• $e^{0.724} ≈ 2.06$이므로 $e^{-0.724} ≈ 0.485$
• $e^{1.403} ≈ 4.07$이므로 $e^{-1.403} ≈ 0.246$
• 시험에서는 계산기 사용 가능!
(b) 95% CI for LPM:
$-0.122 \pm 1.96 \times 0.040 = [-0.200, -0.044]$
해석: 95% 신뢰수준에서 alcohol dependency는 고용 확률을 4.4%p에서 20.0%p 사이 감소시킴
(c) Model preference:
추천: Probit 또는 Logit
이유:
- 예측 확률이 [0,1] 범위 내
- Marginal effect가 변함 (더 현실적)
- 이론적 근거 (latent variable)
- 극단값에서 더 합리적
단, 평균 근처에서만 해석한다면 LPM도 acceptable
(d) College graduate (educ = 16):
LPM: 여전히 -0.122 (constant marginal effect)
Probit:
• Index values가 더 커짐 (right tail)
• Marginal effect는 감소 (flatter slope)
• 약 -0.10 정도로 예상
Logit: Similar pattern to Probit
핵심: 교육 수준이 높을수록 alcohol dependency의 부정적 효과가 감소!
You have panel data on 195 countries from 1960-2000 (5-year intervals).
Variables: democracy index (dem_ind), log GDP per capita (log_gdppc)
Three specifications:
(1) Pooled OLS: $\widehat{dem\_ind} = \alpha + 0.25 \times log\_gdppc$
(2) Country FE: $\widehat{dem\_ind} = \alpha_i + 0.08 \times log\_gdppc$
(3) Country + Year FE: $\widehat{dem\_ind} = \alpha_i + \gamma_t + 0.05 \times log\_gdppc$
(a) Interpret each coefficient.
(b) Why do coefficients get smaller as we add more fixed effects?
(c) If per capita income increases by 20%, what is the predicted change in democracy index under model (2)?
(d) What type of variation identifies the coefficient in model (3)?
(e) Draw a graph showing within vs between variation.
(a) Interpretations:
- (1): Countries with 1% higher GDP have 0.0025 higher democracy index
- (2): When a country's GDP increases by 1%, democracy index increases by 0.0008
- (3): Controlling for global trends, 1% GDP increase → 0.0005 index increase
(1)은 between variation (국가간 차이)
(2)는 within variation (국가내 변화)
(3)는 detrended within variation
(b) Why smaller coefficients?
각 단계에서 제거되는 variation:
- Country FE: Between-country variation 제거
→ "부유한 나라가 민주적"이라는 cross-sectional correlation 제거
→ Switzerland vs North Korea 같은 극단적 차이 제외 - Year FE: Common time trends 제거
→ 전 세계적 민주화 물결 (1990년대)
→ 글로벌 경제성장 추세
→ 냉전 종식 같은 global shocks
이는 마치 "교육이 소득에 미치는 영향"을 측정할 때:
• No FE: 모든 사람 비교 (의사 vs 고졸)
• Individual FE: 같은 사람의 교육 변화 (야간대학 효과)
• + Time FE: 경기 변동 제거 (호황기 효과 제외)
(c) 20% increase effect (model 2):
$\Delta dem\_ind = 0.08 \times \ln(1.20) = 0.08 \times 0.182 = 0.0146$
민주주의 지수가 0.0146 포인트 증가
또는 작은 변화에서: 20% ≈ 0.20 사용 가능
(d) Identifying variation in model (3):
"Within-country, within-year deviations from trends"
구체적 예시:
• 1997년 아시아 금융위기
• 한국의 GDP는 세계 평균보다 더 떨어짐
• 한국의 민주주의는 어떻게 변했나?
• 이런 "differential shocks"가 identification source
(e) Graphical representation:
[그래프는 아래 차트에서 구현]
예시:
• 기술 발전이 임금과 교육 수준을 동시에 높임
• 경제 위기가 고용과 건강을 동시에 악화시킴
• 정치적 변화가 민주주의와 경제 정책을 동시에 바꿈
해결책?
• Instrumental Variables (다음 챕터!)
• Natural experiments
• Regression discontinuity
핵심: No free lunch in econometrics!
PS4 Complete Solutions (완전 해설)
완전판Consider the regression results from the drunk driving study with 48 states from 1982-1988.
California has 39 million residents.
(a) The minimum legal drinking age in California is 21. Use results in column (4). If California lowered the drinking age to 18, what is the predicted increase in fatalities?
(b) Construct a 90% confidence interval for your estimate in part (a).
(c) Suppose real income per capita increases by 1% next year. Use column (4) to predict the change in fatalities.
(d) Construct a 90% CI for part (c).
(e) Compare regressions 4 and 6. Which is better and why?
(a) Effect of lowering drinking age to 18:
From column (4):
• Drinking age 18 coefficient = 0.033
• Drinking age 19 coefficient = -0.017
• Drinking age 20 coefficient = 0.036
• Base category: Drinking age 21
Change = 0.033 (deaths per 10,000 people)
For California (39 million = 3,900 × 10,000):
Increase = 0.033 × 3,900 = 128.7 deaths
(b) 90% CI for drinking age effect:
SE = 0.072 (from regression output)
90% CI: $0.033 \pm 1.645 \times 0.072$
= $0.033 \pm 0.118$
= $[-0.085, 0.151]$ per 10,000
For California: $[-331.5, 588.9]$ deaths
(c) Effect of 1% income increase:
Coefficient on real income = 1.61
Units: Income in logarithm, so 1% increase = 0.01 change in log
Effect = 1.61 × 0.01 = 0.0161 per 10,000
For California: 0.0161 × 3,900 = 62.8 more deaths
(d) 90% CI for income effect:
SE = 0.73
90% CI for 1% change: $0.0161 \pm 1.645 \times 0.0073$
= $[0.004, 0.028]$ per 10,000
For California: $[15.6, 109.2]$ deaths
(e) Model 4 vs Model 6 comparison:
| Aspect | Model 4 | Model 6 |
|---|---|---|
| State FE | Yes | Yes |
| Time FE | Yes | Yes |
| R² | 0.985 | 0.935 |
| Beer tax coef | -0.53 | -0.44 |
| Extra controls | Many | Few |
결론: Model 4가 더 좋음
이유:
- Higher R² (better fit)
- Controls for more confounders
- More precise estimates
- F-test likely rejects restricted model
Panel data on 188 US firms from 1975-1985. Variables: investment/capital ratio (ikb), Tobin's Q (qb).
(a) Run naive regression of ikb on qb. Interpret and discuss omitted variables.
(b) Show entity demeaned regression = fixed effects regression.
(c) Add time fixed effects. Plot and interpret.
(a) Naive regression:
$\widehat{ikb} = \alpha + \beta \times qb$
Expected result: Positive coefficient
Higher Q → Higher market valuation → More investment
Omitted variables (time-invariant):
- Management quality
- Industry characteristics
- Firm culture/innovation capacity
- Access to capital markets
Omitted variables (time-varying):
- Business cycle effects
- Interest rates
- Technology shocks
- Regulatory changes
(b) Entity demeaning = Fixed effects:
STATA code:
* Declare panel xtset cusip year * Method 1: Fixed effects xtreg ikb qb, fe * Method 2: Entity demeaning bysort cusip: egen ikb_mean = mean(ikb) bysort cusip: egen qb_mean = mean(qb) gen ikb_demean = ikb - ikb_mean gen qb_demean = qb - qb_mean reg ikb_demean qb_demean * Compare coefficients - they're identical!
Why identical?
FE mathematically performs within transformation!
(c) Time fixed effects:
STATA code:
* Add time FE xtreg ikb qb i.year, fe * Extract and plot time effects predict time_effects, u coefplot, vertical
Expected pattern:
- 1979-1980: Negative (oil crisis, recession)
- 1981-1982: Very negative (Volcker recession)
- 1983-1985: Recovery (positive trend)
Interpretation: Time FE capture macroeconomic shocks affecting all firms!
Panel data for 195 countries, 1960-2000 (5-year intervals).
Variables: democracy index (dem_ind), log GDP per capita (log_gdppc).
Complete all parts (a) through (f) with full STATA code and interpretation.
(a) Panel declaration and balance check:
xtset code year xtdescribe
If all countries have 9 observations → Balanced panel
If some have missing years → Unbalanced panel
(b) Pooled OLS with clustered SE:
reg dem_ind log_gdppc, vce(cluster code)
(c) Interpretation:
Expected coefficient ≈ 0.25
"Countries with 1% higher GDP per capita have 0.0025 higher democracy index"
Significant? Check t-stat > 1.96
(d) 20% income increase:
$\Delta dem\_ind = 0.25 \times \ln(1.20) = 0.25 \times 0.182 = 0.0455$
95% CI: Use SE from regression
(e) Country fixed effects:
xtreg dem_ind log_gdppc, fe vce(cluster code)
Coefficient drops to ≈ 0.08 (within-country effect)
(f) Two-way fixed effects:
xtreg dem_ind log_gdppc i.year, fe vce(cluster code)
Coefficient drops further to ≈ 0.05
Interpretation: Deviations from country and year means
Problem 4: Employment data (5,412 workers, 2008-2009)
Problem 5: Women's labor force participation (753 women)
Compare LPM, Probit, and Logit results for both problems.
Problem 4: Employment Status
(a) Employment rate in 2009:
sum employed * Result: mean = 0.9056 (90.56% employed)
95% CI: $0.9056 \pm 1.96 \times \sqrt{\frac{0.9056 \times 0.0944}{5412}}$
(b) Age effects (all models):
| Age | LPM | Probit | Logit |
|---|---|---|---|
| 20 | High | High | High |
| 40 | Maximum | Maximum | Maximum |
| 60 | Lower | Much lower | Much lower |
Nonlinear effect: Inverse U-shape (peaks around 40)
Problem 5: Labor Force Participation
Key results comparison:
| Variable | LPM Effect | Probit ME | Logit ME |
|---|---|---|---|
| kidslt6 | -20.6%p*** | -19.8%p*** | -19.9%p*** |
| educ | +3.8%p*** | +3.9%p*** | +3.9%p*** |
| exper | Quadratic | Quadratic | Quadratic |
This is typical when most observations are away from 0 and 1.
핵심 요약 (Ultimate Version)
Exam 2를 위한 완벽 체크리스트
Panel Data 필수 개념
✓ Entity demeaning의 원리 이해
✓ FE coefficient의 해석: "within variation"
✓ Time-invariant variables가 사라지는 이유
✓ State FE + Time FE의 의미
✓ Clustered SE의 필요성
✓ Hausman test 해석
Binary Models 완전 정복
✓ LPM의 장단점 (해석 쉽지만 확률 문제)
✓ Probit/Logit의 CDF 사용 이유
✓ Marginal effect 계산 (After-Before!)
✓ 평균값에서 계산하는 습관
✓ Coefficient ≠ Marginal effect
✓ 세 모델의 차이점과 선택 기준
시험 전략
✓ Clustered SE 언제 사용? (panel data)
✓ F-test for time effects의 의미
✓ 계수 부호가 바뀌면 → OVB 의심!
✓ Within vs Between variation 구분
✓ Marginal effect는 반드시 평균에서
✓ Show all work for partial credit!
계산 팁 모음
✓ $\ln(1.20) ≈ 0.182$, $\ln(1.10) ≈ 0.095$
✓ $e^{0.5} ≈ 1.65$, $e^{1} ≈ 2.72$, $e^{2} ≈ 7.39$
✓ $\Phi(0) = 0.5$, $\Phi(1) ≈ 0.84$, $\Phi(2) ≈ 0.98$
✓ Logit: $P = \frac{1}{1+e^{-z}} = \frac{e^z}{1+e^z}$
✓ Panel data에서 coefficient 해석 주의 (between vs within)
✓ Binary models에서 marginal effect 계산 연습
✓ 표준정규분포표 사용법 숙지 (Probit)
✓ $e^x$ 계산 또는 근사 (Logit)
✓ F-test의 null hypothesis 정확히 쓰기
✓ 경제학적 직관으로 답 검증하기
✓ Time-invariant variables in FE → disappear!
✓ Interaction terms: main effects 포함 여부
✓ Standard errors: robust vs clustered 구분