Exam 2 완벽 정복 가이드
시작하기이번 시험은 선형성을 넘어선 복잡한 관계를 다룹니다:
- Chapter 8 - Nonlinear Models & Interactions: 변수들이 서로 영향을 주고받는 상황
- Chapter 9 - Assessing Regressions: 모델의 타당성 검증
- Chapter 10 - Panel Data: 시간에 따른 변화 추적
- Chapter 11 - Binary Dependent Variables: Yes/No 같은 이진 결과 분석
시험 전 체크리스트
Standard Normal Distribution Table 활용법
• Probit model에서 $\Phi(z)$ 값 찾기
• z = 0.77일 때 → 표에서 0.7794 찾기
• 음수일 때: $\Phi(-z) = 1 - \Phi(z)$
표 읽기 실전 연습
| z값 | 표 찾기 방법 | 결과 | 활용 예시 |
|---|---|---|---|
| 0.77 | 행 0.7, 열 0.07 | 0.7794 | 고졸 비음주자 고용률 |
| -0.50 | 행 0.5, 열 0.00 → 1에서 빼기 | 1 - 0.6915 = 0.3085 | 저학력자 고용률 |
| 1.96 | 행 1.9, 열 0.06 | 0.9750 | 95% 신뢰구간 경계 |
• z = 0.38에서 0.3과 0.4 중 뭘 봐야 하나? → 더 가까운 0.4 선택
• 또는 선형 보간: 0.8×Φ(0.3) + 0.2×Φ(0.4)
• 시험에서는 "가장 가까운 값 사용"이 일반적
Chi-square & F-distribution Tables
• Joint significance test에서 critical values
• Degrees of freedom 정확히 계산하기
• 5% significance level이 기본
계산기 활용 팁
• $e^x$ 계산: Logit model에서 필수
• Log 변환: percentage 해석에 필요
• 소수점 2자리까지만 (문제 요구사항 확인)
Question 1: Interaction Terms 완벽 이해
고급The following equation is estimated for the 330 major league baseball players for which city racial composition statistics are available. The variables black and hispan are binary indicators for the individual players (the base group are the white players). The variable percblck is the percentage of the team's city population that is black and the variable perchisp is the percentage of Hispanics in the team's city population. The other variables measure aspects of player productivity and longevity. Here, we are interested in race effects after controlling for other variables. In addition to including black and hispan in the equation, we add the interactions blackxpercblck and hispanxperchisp. The estimated equation is
스타벅스 커피 가격을 상상해보세요:
• 기본 아메리카노: 4,500원
• 사이즈 업그레이드: +500원
• 샷 추가: +600원
그런데 interaction이 있다면?
• 사이즈업 + 샷추가 = +1,100원이 아니라 +1,300원!
• 왜? 큰 컵에는 더 많은 샷이 필요하니까!
마찬가지로 흑인 선수의 연봉은:
• 도시의 흑인 인구 비율이 낮으면 차별받을 수 있고
• 도시의 흑인 인구 비율이 높으면 오히려 프리미엄을 받을 수 있습니다!
문제: How do you interpret the coefficient on black keeping in mind that this variable enters in an interaction term also?
If a Black player is in a city with no blacks (0%) then the Black player earns 19.8% less than a comparable white player. It is the y-intercept difference of the black and white regression.
• 흑인 인구가 전혀 없는 도시에서 흑인 선수가 받는 차별
• Main effect는 interaction이 0일 때의 baseline effect
• 실제 효과 = main effect + interaction effect
핵심 개념: Interaction은 "한 변수의 효과가 다른 변수의 값에 따라 달라질 때" 사용합니다.
실생활 예시: 운동과 다이어트의 상호작용
기본 모델 (interaction 없음):
체중감소 = β₀ + β₁×운동시간 + β₂×다이어트여부
→ 운동 효과가 다이어트 여부와 무관하게 일정
Interaction 모델:
체중감소 = β₀ + β₁×운동시간 + β₂×다이어트여부 + β₃×(운동시간×다이어트여부)
→ 다이어트하는 사람은 운동 효과가 더 크다!
수치 예시:
- 다이어트 안 함: 운동 1시간당 0.5kg 감소
- 다이어트 함: 운동 1시간당 1.2kg 감소 (시너지 효과!)
Interaction 효과 계산하기
10% 흑인 인구 도시
계산: $-0.198 + 0.0125 \times 10 = -0.073$
해석: 7.3% 낮은 연봉 (차별이 줄어듦)
마치 소수자가 어느 정도 있으면 차별이 완화되는 것처럼!
30% 흑인 인구 도시
계산: $-0.198 + 0.0125 \times 30 = 0.177$
해석: 17.7% 높은 연봉 (프리미엄!)
다수 흑인 팬들이 같은 인종 선수를 선호하는 효과!
Break-even point
계산: $0.198 \div 0.0125 = 15.84\%$
의미: 도시 흑인 인구가 15.84%일 때 연봉 차별이 사라짐
이 지점이 바로 차별과 선호가 균형을 이루는 점!
Part (f): Hispanic vs White 비교
접근법:
- Individual t-test:
• hispan: $t = -0.190/0.153 = -1.24$, p-value = 0.1075 (유의하지 않음)
• hispanxperchisp: $t = 0.0201/0.0098 = 2.05$, p-value = 0.0202 (5%에서 유의) - Joint F-test 필요: Multicollinearity 때문에 개별 검정은 신뢰할 수 없음!
Part (g): Hispanic vs Black 비교
귀무가설: $\beta_{hispan} + \beta_{hispanxperchisp} \times perchisp = \beta_{black} + \beta_{blackxpercblck} \times percblck$
방법: STATA에서 직접 검정하거나 회귀식을 재배열
• 특정 도시 조건에서의 차이를 계산해야 함
• 또는 어떤 조건에서 같아지는지 찾기
Question 2: Internal Validity 위협 요인들
중급Alicia believes the following model is correct:
$Wage = \beta_0 + \beta_1 \times Schooling + \beta_2 \times Experience + \beta_3 \times Experience^2 + u$
Brendon thinks the following model is correct:
$Wage = \beta_0 + \beta_2 \times Experience + \beta_3 \times Experience^2 + u$
Internal Validity의 5대 위협
Omitted Variable Bias (OVB)
문제: Brendon이 맞다면 Alicia가 Schooling을 포함해도 bias 없음!
이유: 불필요한 변수 추가 ≠ bias (단지 less efficient)
실생활: 키와 몸무게로 건강 예측할 때, 신발 사이즈 추가해도 해롭지 않음
Sample Selection Bias
문제: "You need a job to get a wage"
의미: 실업자는 관찰되지 않음 → 대표성 문제
실생활: 생존자 편향 - 성공한 스타트업만 보고 창업이 쉽다고 판단
Simultaneous Causality
문제: "High wage → can pay for more schooling"
의미: X→Y인지 Y→X인지 불분명
실생활: 닭이 먼저냐 달걀이 먼저냐? 경찰↔범죄율
Heteroskedasticity
문제: "Range of wage increases with schooling"
영향: $\hat{\beta}_1$은 여전히 unbiased, 하지만 SE가 wrong
실생활: 고학력자 임금은 편차가 큼 (의사 vs 박사 실업자)
Panel Data Solution
개선: Fixed effects로 시간불변 개인특성 제거
단점: 개인특성의 효과를 보고 싶다면 오히려 나쁨
실생활: 같은 사람의 변화만 추적 → 타고난 능력 효과 제거
✓ OVB → coefficient bias
✓ Sample selection → 대표성 문제
✓ Simultaneous causality → 인과관계 방향 불명확
✓ Heteroskedasticity → SE wrong (not coefficient)
✓ Measurement error → attenuation bias
Question 3: Binary Dependent Variables 마스터
고급Does alcohol dependency interfere with people's ability to work? A study examined the employment of U.S. men and women between ages 25 and 59.
| Variable | Definition | Mean | Std. Dev. |
|---|---|---|---|
| alcdep | Alcohol dependency (1 if dependent, 0 otherwise) | 0.11 | 0.31 |
| employed | 1 if employed, 0 otherwise | 0.78 | 0.41 |
| educ | Years of education | 12.46 | 3.25 |
LPM (Linear Probability Model):
• 장점: 해석이 직관적 (계수 = 확률 변화)
• 단점: 확률이 0-1을 벗어날 수 있음
• 비유: 온도계로 -10°C나 150°C를 예측하는 것처럼 비현실적
Probit (표준정규분포 사용):
• 장점: 확률이 항상 0-1 사이
• 단점: 계산이 복잡 (정규분포표 필요)
• 비유: S자 곡선처럼 극단에서 천천히 변화
Logit (로지스틱 분포 사용):
• 장점: 수학적으로 깔끔, odds ratio 해석 가능
• 단점: 역시 직접 해석은 어려움
• 비유: 도박에서 승률 대신 배당률로 생각
예시: 당신의 성적 변화
일반 회귀분석은 "똑똑한 학생 vs 덜 똑똑한 학생"을 비교합니다.
→ 문제: 타고난 능력 차이가 섞여있음!
Fixed Effects는 "같은 학생의 어제 vs 오늘"을 비교합니다.
→ 장점: 타고난 능력은 그대로니까 순수한 노력의 효과만 측정!
항공 요금 예시로 돌아가면:
• 일반 OLS: 시골 노선 vs 도시 노선 비교 (사과와 오렌지!)
• Fixed Effects: 같은 노선의 작년 vs 올해 비교 (진짜 변화!)
수식으로 표현하면:
$Y_{it} - \bar{Y}_i = \beta(X_{it} - \bar{X}_i) + (u_{it} - \bar{u}_i)$
→ 개체별 평균을 빼서 시간불변 특성($\alpha_i$) 제거!
LPM의 경우 (가장 간단)
직접 해석: 알코올 의존증이 있으면 고용 확률이 12.2%p 감소
Probit의 경우 (정규분포표 사용)
- Step 1: 특정 조건에서 z-score 계산
alcdep=1: $z = -0.31 + (-0.39)(1) + (0.096)(12) = 0.38$
alcdep=0: $z = -0.31 + (-0.39)(0) + (0.096)(12) = 0.77$ - Step 2: 표에서 확률 찾기
$\Phi(0.38) = 0.6480$, $\Phi(0.77) = 0.7794$ - Step 3: 차이 계산
$0.6480 - 0.7794 = -0.1314$ → 13.14%p 감소
Logit의 경우 (지수함수 사용)
계산기로 $e^{0.68} = 1.974$, 따라서 $F(0.68) = 1.974/2.974 = 0.6637$
실전 계산 예시: 알코올 의존과 고용
Step 1: 회귀 계수 확인
Probit: employed = -0.31 - 0.397×alcdep + 0.096×educ
Step 2: 특정 조건에서 z-score 계산
고졸자(educ=12)의 경우:
- 알코올 의존 O: z = -0.31 + (-0.397)(1) + (0.096)(12) = 0.38
- 알코올 의존 X: z = -0.31 + (-0.397)(0) + (0.096)(12) = 0.77
Step 3: 표에서 확률 찾기 요령
- z = 0.38 → 표에서 행 0.3, 열 0.08 찾기 → 0.6480
- z = 0.77 → 표에서 행 0.7, 열 0.07 찾기 → 0.7794
- 음수일 때: Φ(-z) = 1 - Φ(z)
Step 4: Marginal Effect
0.6480 - 0.7794 = -0.1314 → 13.14%p 감소
• 표를 빨리 읽으려면: 첫 번째 소수점은 행, 두 번째는 열
• 0.77 = 0.7 (행) + 0.07 (열)
• 보간법이 필요하면 가장 가까운 값 사용
문제: Find the 95% confidence interval for the effect of college degree (4 more years of education) on probability of being employed (under LPM model)?
Step 1: 4년 교육의 효과 = $0.0274 \times 4 = 0.1096$
Step 2: CI for 1년 = [0.0204, 0.0343]
Step 3: CI for 4년 = [0.0816, 0.1372] → [8.16%, 13.72%]
해석: 대학 졸업은 고용 확률을 8-14% 증가시킴 (95% 확신)
• 평균 고용률 78% → 대학 졸업시 88-92%
• 4년 학비 vs 증가된 평생 소득 비교
• 정책 결정의 근거 자료
가설: 알코올 의존의 효과 = 10년 교육 감소 효과
수식: $H_0: \beta_1 = -10\beta_2$ 또는 $\beta_1 + 10\beta_2 = 0$
트릭: 새로운 변수 생성
$neweduc = educ - 10 \times alcdep$
회귀식: $employed = \beta_0 + \gamma_1 alcdep + \beta_2 neweduc$
여기서 $\gamma_1 = \beta_1 + 10\beta_2$
검정: $\gamma_1$의 t-test가 바로 우리가 원하는 검정!
• "Fool STATA" 문제는 변수 변환이 핵심
• 원하는 가설을 계수=0 형태로 만들기
• 변환 후에도 해석이 같은지 확인!
Question 4: Panel Data와 Fixed Effects
고급We are interested in estimating the model:
$\log(fare_{it}) = \vartheta_t + \beta_1 concen_{it} + \beta_2 \log(dist_i) + \beta_3 [\log(dist_i)]^2 + \alpha_i + u_{it}$
where fare is average one-way fare, concen is the market share of the largest airline (for given route) and dist is distance in miles. Data is obtained from the Domestic Airline Fares Consumer Report by the U.S. Department of Transportation. $\vartheta_t$ means we allow for different year intercept. There are 1,149 routes and 4 years (1997-2000) in this data set.
상황을 커피숍으로 비유해보면:
단순 회귀 (part a): concen 계수 = -0.492
• "독점일수록 가격이 싸다?" → 말이 안 됨!
• 실제로는: 시골 노선(독점)은 수요가 적어 싸고, 도시 노선(경쟁)은 비쌈
Fixed Effects (part b): concen 계수 = +0.103
• 같은 노선 내에서 시간에 따른 변화만 봄
• "독점 증가 → 가격 상승" → 이제 말이 됨!
마치 스타벅스(경쟁 많음, 비쌈)와 시골 카페(독점, 저렴)를 단순 비교하면 "경쟁이 가격을 올린다"고 잘못 결론내리는 것과 같습니다!
Panel Data의 핵심 개념
Within vs Between Variation
Within: 같은 개체 내 시간에 따른 변화
Between: 서로 다른 개체 간 차이
예시: 당신의 몸무게 변화(within) vs 사람들 간 몸무게 차이(between)
Fixed Effects의 마법
제거되는 것: 시간불변 개체특성 ($\alpha_i$)
남는 것: 시간에 따른 변화만
장점: 관찰 안 되는 특성으로 인한 bias 제거
Year Dummies의 역할
Part (d): y98, y99, y00 추가
효과: 전체적인 시간 트렌드 통제
해석: 2000년 요금이 1997년보다 9.78% 높음
질문: Do any of the models above control for distance? Why or why not?
Fixed effects model controls for distance since distance has only i subscript, it changes across routes but does not change over time (it is a route-fixed effect)
핵심 통찰:
- $dist_i$는 i subscript만 있음 → 시간에 따라 변하지 않음
- 뉴욕-LA 거리는 1997년이나 2000년이나 동일!
- Fixed effects $\alpha_i$가 이미 거리 효과를 흡수
- 따라서 별도로 거리 변수를 넣을 수 없음 (perfect collinearity)
| Model | concen 계수 | 해석 | 의미 |
|---|---|---|---|
| Simple OLS | -0.492 | 1%p 시장점유율 ↑ → 49% 요금 ↓ | 잘못된 결과 (OVB) |
| Fixed Effects | +0.103 | 1%p 시장점유율 ↑ → 10% 요금 ↑ | 경제 이론과 일치 |
| FE + Year | +0.169 | 1%p 시장점유율 ↑ → 17% 요금 ↑ | 시간 트렌드 통제 후 |
• 항공 규제 정책: 경쟁 촉진이 요금 인하에 도움
• 단순 비교는 위험: 노선 특성 통제 필수
• 시간 효과도 중요: 유가, 인플레이션 등
실전 문제 풀이 전략
종합문제 유형별 접근법
Interaction Terms 문제
• Main effect = baseline (다른 변수가 0일 때)
• Total effect = main + interaction × other variable
• Break-even point 찾기: total effect = 0 되는 지점
• Joint significance: F-test 필요 (multicollinearity 주의)
Binary Choice Models
• LPM: 직접 해석, 계수 = percentage point 변화
• Probit: z-score 계산 → 표에서 확률 찾기
• Logit: $F(z) = 1/(1+e^{-z})$ 계산
• CI 계산: 개별 계수 CI를 배수로 확장
Panel Data 분석
• Simple OLS vs FE 비교 → OVB 확인
• 시간불변 변수는 FE에서 drop됨
• Year dummies로 common time trends 통제
• Within R-squared 해석 주의
문제 유형별 함정과 대처법
Interaction Terms 함정
함정: Main effect를 전체 효과로 해석
대처: "when X₂ = 0"임을 항상 명시
변형: 3-way interaction 가능 (X₁×X₂×X₃)
예시: 성별×교육×경험의 3중 상호작용
Binary Models 함정
함정: LPM에서 확률 > 1 나와도 당황 안 하기
대처: "이론적 한계"라고 명시하고 계속 진행
변형: Ordered Probit (만족도 1-5)
계산 팁: e⁰ = 1, e¹ ≈ 2.718 암기
Panel Data 함정
함정: Time-invariant 변수 계수 요구
대처: "FE에서는 drop됨" 명시
변형: Random Effects 비교 문제
핵심: Hausman test로 FE vs RE 선택
✓ 계산기 준비 (log, exp 기능 확인)
✓ 통계표 활용법 숙지 (특히 음수 z-score)
✓ 소수점 자리수 요구사항 확인
✓ Robust SE 해석 주의
✓ 시간 배분: 각 문제 20-25분
Interaction Effect:
$$\frac{\partial Y}{\partial X_1} = \beta_1 + \beta_3 X_2$$Probit Marginal Effect:
$$P(Y=1|X_1=1) - P(Y=1|X_1=0) = \Phi(z_1) - \Phi(z_0)$$Log Model Interpretation:
$$\text{1 unit change in X} \rightarrow 100\beta_1\% \text{ change in Y}$$Fixed Effects Transformation:
$$\tilde{Y}_{it} = Y_{it} - \bar{Y}_i$$1. Triple Interaction
$Wage = \beta_0 + \beta_1Male + \beta_2Married + \beta_3Educ + \beta_4(Male×Married×Educ)$
해석: 교육의 임금 효과가 성별과 결혼 여부에 따라 다름
2. Multinomial Logit
종속변수가 3개 이상 범주 (예: 실업/파트타임/풀타임)
접근: Base category 대비 각각의 log-odds 계산
3. Dynamic Panel
$Y_{it} = \alpha + \rho Y_{i,t-1} + \beta X_{it} + \mu_i + \varepsilon_{it}$
문제: Lagged dependent variable과 fixed effect의 상관관계
4. Difference-in-Differences with Panel
Treatment group과 time interaction in panel setting
핵심: Parallel trends assumption 검증