Exam 2 완벽 정복 가이드

시작하기
? Exam 2의 핵심 주제들

이번 시험은 선형성을 넘어선 복잡한 관계를 다룹니다:

  • Chapter 8 - Nonlinear Models & Interactions: 변수들이 서로 영향을 주고받는 상황
  • Chapter 9 - Assessing Regressions: 모델의 타당성 검증
  • Chapter 10 - Panel Data: 시간에 따른 변화 추적
  • Chapter 11 - Binary Dependent Variables: Yes/No 같은 이진 결과 분석

시험 전 체크리스트

1

Standard Normal Distribution Table 활용법

• Probit model에서 $\Phi(z)$ 값 찾기

• z = 0.77일 때 → 표에서 0.7794 찾기

• 음수일 때: $\Phi(-z) = 1 - \Phi(z)$

Standard Normal Distribution Table 정복하기

표 읽기 실전 연습

z값 표 찾기 방법 결과 활용 예시
0.77 행 0.7, 열 0.07 0.7794 고졸 비음주자 고용률
-0.50 행 0.5, 열 0.00 → 1에서 빼기 1 - 0.6915 = 0.3085 저학력자 고용률
1.96 행 1.9, 열 0.06 0.9750 95% 신뢰구간 경계
실수 방지:
• z = 0.38에서 0.3과 0.4 중 뭘 봐야 하나? → 더 가까운 0.4 선택
• 또는 선형 보간: 0.8×Φ(0.3) + 0.2×Φ(0.4)
• 시험에서는 "가장 가까운 값 사용"이 일반적
2

Chi-square & F-distribution Tables

• Joint significance test에서 critical values

• Degrees of freedom 정확히 계산하기

• 5% significance level이 기본

3

계산기 활용 팁

• $e^x$ 계산: Logit model에서 필수

• Log 변환: percentage 해석에 필요

• 소수점 2자리까지만 (문제 요구사항 확인)

Question 1: Interaction Terms 완벽 이해

고급
Question 1 [28 points]

The following equation is estimated for the 330 major league baseball players for which city racial composition statistics are available. The variables black and hispan are binary indicators for the individual players (the base group are the white players). The variable percblck is the percentage of the team's city population that is black and the variable perchisp is the percentage of Hispanics in the team's city population. The other variables measure aspects of player productivity and longevity. Here, we are interested in race effects after controlling for other variables. In addition to including black and hispan in the equation, we add the interactions blackxpercblck and hispanxperchisp. The estimated equation is

$$\widehat{\ln(salary)} = 10.34 - 0.198 \times black - 0.190 \times hispan + 0.0125 \times blackxpercblck$$ $$(2.18) \quad (0.125) \quad\quad\quad (0.153) \quad\quad\quad\quad\quad (0.00500)$$ $$+ 0.0201 \times hispanxperchisp + other \; factors$$ $$(0.0098)$$ $$R^2 = 0.638$$
Q: Interaction term이 왜 필요한가요?
A: 실생활 예시로 생각해보세요!

스타벅스 커피 가격을 상상해보세요:
• 기본 아메리카노: 4,500원
• 사이즈 업그레이드: +500원
• 샷 추가: +600원

그런데 interaction이 있다면?
• 사이즈업 + 샷추가 = +1,100원이 아니라 +1,300원!
• 왜? 큰 컵에는 더 많은 샷이 필요하니까!

마찬가지로 흑인 선수의 연봉은:
• 도시의 흑인 인구 비율이 낮으면 차별받을 수 있고
• 도시의 흑인 인구 비율이 높으면 오히려 프리미엄을 받을 수 있습니다!
Part (a) 해석의 핵심

문제: How do you interpret the coefficient on black keeping in mind that this variable enters in an interaction term also?

Solution

If a Black player is in a city with no blacks (0%) then the Black player earns 19.8% less than a comparable white player. It is the y-intercept difference of the black and white regression.

핵심 이해: -0.198은 percblck = 0일 때의 효과입니다!
• 흑인 인구가 전혀 없는 도시에서 흑인 선수가 받는 차별
• Main effect는 interaction이 0일 때의 baseline effect
• 실제 효과 = main effect + interaction effect
Interaction의 실제 의미: 조건부 효과

핵심 개념: Interaction은 "한 변수의 효과가 다른 변수의 값에 따라 달라질 때" 사용합니다.

실생활 예시: 운동과 다이어트의 상호작용

기본 모델 (interaction 없음):

체중감소 = β₀ + β₁×운동시간 + β₂×다이어트여부

→ 운동 효과가 다이어트 여부와 무관하게 일정

Interaction 모델:

체중감소 = β₀ + β₁×운동시간 + β₂×다이어트여부 + β₃×(운동시간×다이어트여부)

→ 다이어트하는 사람은 운동 효과가 더 크다!

수치 예시:

  • 다이어트 안 함: 운동 1시간당 0.5kg 감소
  • 다이어트 함: 운동 1시간당 1.2kg 감소 (시너지 효과!)

Interaction 효과 계산하기

b

10% 흑인 인구 도시

계산: $-0.198 + 0.0125 \times 10 = -0.073$

해석: 7.3% 낮은 연봉 (차별이 줄어듦)

마치 소수자가 어느 정도 있으면 차별이 완화되는 것처럼!

c

30% 흑인 인구 도시

계산: $-0.198 + 0.0125 \times 30 = 0.177$

해석: 17.7% 높은 연봉 (프리미엄!)

다수 흑인 팬들이 같은 인종 선수를 선호하는 효과!

d

Break-even point

계산: $0.198 \div 0.0125 = 15.84\%$

의미: 도시 흑인 인구가 15.84%일 때 연봉 차별이 사라짐

이 지점이 바로 차별과 선호가 균형을 이루는 점!

Part (f) & (g): 통계적 유의성 검정

Part (f): Hispanic vs White 비교

접근법:

  • Individual t-test:
    • hispan: $t = -0.190/0.153 = -1.24$, p-value = 0.1075 (유의하지 않음)
    • hispanxperchisp: $t = 0.0201/0.0098 = 2.05$, p-value = 0.0202 (5%에서 유의)
  • Joint F-test 필요: Multicollinearity 때문에 개별 검정은 신뢰할 수 없음!

Part (g): Hispanic vs Black 비교

귀무가설: $\beta_{hispan} + \beta_{hispanxperchisp} \times perchisp = \beta_{black} + \beta_{blackxpercblck} \times percblck$

방법: STATA에서 직접 검정하거나 회귀식을 재배열

시험 팁: Interaction이 있을 때는 단순 계수 비교가 아닙니다!
• 특정 도시 조건에서의 차이를 계산해야 함
• 또는 어떤 조건에서 같아지는지 찾기

Question 2: Internal Validity 위협 요인들

중급
Question 2 [20 points]

Alicia believes the following model is correct:
$Wage = \beta_0 + \beta_1 \times Schooling + \beta_2 \times Experience + \beta_3 \times Experience^2 + u$

Brendon thinks the following model is correct:
$Wage = \beta_0 + \beta_2 \times Experience + \beta_3 \times Experience^2 + u$

Internal Validity의 5대 위협

a

Omitted Variable Bias (OVB)

문제: Brendon이 맞다면 Alicia가 Schooling을 포함해도 bias 없음!

이유: 불필요한 변수 추가 ≠ bias (단지 less efficient)

실생활: 키와 몸무게로 건강 예측할 때, 신발 사이즈 추가해도 해롭지 않음

c

Sample Selection Bias

문제: "You need a job to get a wage"

의미: 실업자는 관찰되지 않음 → 대표성 문제

실생활: 생존자 편향 - 성공한 스타트업만 보고 창업이 쉽다고 판단

d

Simultaneous Causality

문제: "High wage → can pay for more schooling"

의미: X→Y인지 Y→X인지 불분명

실생활: 닭이 먼저냐 달걀이 먼저냐? 경찰↔범죄율

e

Heteroskedasticity

문제: "Range of wage increases with schooling"

영향: $\hat{\beta}_1$은 여전히 unbiased, 하지만 SE가 wrong

실생활: 고학력자 임금은 편차가 큼 (의사 vs 박사 실업자)

f

Panel Data Solution

개선: Fixed effects로 시간불변 개인특성 제거

단점: 개인특성의 효과를 보고 싶다면 오히려 나쁨

실생활: 같은 사람의 변화만 추적 → 타고난 능력 효과 제거

시험 필수 암기사항:
✓ OVB → coefficient bias
✓ Sample selection → 대표성 문제
✓ Simultaneous causality → 인과관계 방향 불명확
✓ Heteroskedasticity → SE wrong (not coefficient)
✓ Measurement error → attenuation bias

Question 3: Binary Dependent Variables 마스터

고급
Question 3 [30 points]

Does alcohol dependency interfere with people's ability to work? A study examined the employment of U.S. men and women between ages 25 and 59.

Variable Definition Mean Std. Dev.
alcdep Alcohol dependency (1 if dependent, 0 otherwise) 0.11 0.31
employed 1 if employed, 0 otherwise 0.78 0.41
educ Years of education 12.46 3.25
Q: 왜 3가지 다른 모델(LPM, Probit, Logit)을 사용하나요?
A: 각 모델의 장단점이 다르기 때문입니다!

LPM (Linear Probability Model):
• 장점: 해석이 직관적 (계수 = 확률 변화)
• 단점: 확률이 0-1을 벗어날 수 있음
• 비유: 온도계로 -10°C나 150°C를 예측하는 것처럼 비현실적

Probit (표준정규분포 사용):
• 장점: 확률이 항상 0-1 사이
• 단점: 계산이 복잡 (정규분포표 필요)
• 비유: S자 곡선처럼 극단에서 천천히 변화

Logit (로지스틱 분포 사용):
• 장점: 수학적으로 깔끔, odds ratio 해석 가능
• 단점: 역시 직접 해석은 어려움
• 비유: 도박에서 승률 대신 배당률로 생각
Q: Fixed Effects가 정확히 뭘 하는 건가요?
A: 시간여행 마법이라고 생각하세요!

예시: 당신의 성적 변화

일반 회귀분석은 "똑똑한 학생 vs 덜 똑똑한 학생"을 비교합니다.
→ 문제: 타고난 능력 차이가 섞여있음!

Fixed Effects는 "같은 학생의 어제 vs 오늘"을 비교합니다.
→ 장점: 타고난 능력은 그대로니까 순수한 노력의 효과만 측정!

항공 요금 예시로 돌아가면:
• 일반 OLS: 시골 노선 vs 도시 노선 비교 (사과와 오렌지!)
• Fixed Effects: 같은 노선의 작년 vs 올해 비교 (진짜 변화!)

수식으로 표현하면:
$Y_{it} - \bar{Y}_i = \beta(X_{it} - \bar{X}_i) + (u_{it} - \bar{u}_i)$
→ 개체별 평균을 빼서 시간불변 특성($\alpha_i$) 제거!
Marginal Effect 계산법

LPM의 경우 (가장 간단)

$$\text{Marginal Effect} = \hat{\beta}_{alcdep} = -0.122$$

직접 해석: 알코올 의존증이 있으면 고용 확률이 12.2%p 감소

Probit의 경우 (정규분포표 사용)

  1. Step 1: 특정 조건에서 z-score 계산
    alcdep=1: $z = -0.31 + (-0.39)(1) + (0.096)(12) = 0.38$
    alcdep=0: $z = -0.31 + (-0.39)(0) + (0.096)(12) = 0.77$
  2. Step 2: 표에서 확률 찾기
    $\Phi(0.38) = 0.6480$, $\Phi(0.77) = 0.7794$
  3. Step 3: 차이 계산
    $0.6480 - 0.7794 = -0.1314$ → 13.14%p 감소

Logit의 경우 (지수함수 사용)

$$F(z) = \frac{1}{1 + e^{-z}} = \frac{e^z}{1 + e^z}$$

계산기로 $e^{0.68} = 1.974$, 따라서 $F(0.68) = 1.974/2.974 = 0.6637$

Probit 계산 단계별 가이드

실전 계산 예시: 알코올 의존과 고용

Step 1: 회귀 계수 확인

            Probit: employed = -0.31 - 0.397×alcdep + 0.096×educ
                    

Step 2: 특정 조건에서 z-score 계산

고졸자(educ=12)의 경우:

  • 알코올 의존 O: z = -0.31 + (-0.397)(1) + (0.096)(12) = 0.38
  • 알코올 의존 X: z = -0.31 + (-0.397)(0) + (0.096)(12) = 0.77

Step 3: 표에서 확률 찾기 요령

  • z = 0.38 → 표에서 행 0.3, 열 0.08 찾기 → 0.6480
  • z = 0.77 → 표에서 행 0.7, 열 0.07 찾기 → 0.7794
  • 음수일 때: Φ(-z) = 1 - Φ(z)

Step 4: Marginal Effect

0.6480 - 0.7794 = -0.1314 → 13.14%p 감소

시험 꿀팁:
• 표를 빨리 읽으려면: 첫 번째 소수점은 행, 두 번째는 열
• 0.77 = 0.7 (행) + 0.07 (열)
• 보간법이 필요하면 가장 가까운 값 사용
Part (d): 신뢰구간 계산

문제: Find the 95% confidence interval for the effect of college degree (4 more years of education) on probability of being employed (under LPM model)?

Solution

Step 1: 4년 교육의 효과 = $0.0274 \times 4 = 0.1096$

Step 2: CI for 1년 = [0.0204, 0.0343]

Step 3: CI for 4년 = [0.0816, 0.1372] → [8.16%, 13.72%]

해석: 대학 졸업은 고용 확률을 8-14% 증가시킴 (95% 확신)

실무 활용: 대학 교육의 ROI 계산
• 평균 고용률 78% → 대학 졸업시 88-92%
• 4년 학비 vs 증가된 평생 소득 비교
• 정책 결정의 근거 자료
! Part (e): "Fooling STATA" 기법

가설: 알코올 의존의 효과 = 10년 교육 감소 효과

수식: $H_0: \beta_1 = -10\beta_2$ 또는 $\beta_1 + 10\beta_2 = 0$

트릭: 새로운 변수 생성

$neweduc = educ - 10 \times alcdep$

회귀식: $employed = \beta_0 + \gamma_1 alcdep + \beta_2 neweduc$

여기서 $\gamma_1 = \beta_1 + 10\beta_2$

검정: $\gamma_1$의 t-test가 바로 우리가 원하는 검정!

시험 주의사항:
• "Fool STATA" 문제는 변수 변환이 핵심
• 원하는 가설을 계수=0 형태로 만들기
• 변환 후에도 해석이 같은지 확인!
Binary Choice Models 비교

Question 4: Panel Data와 Fixed Effects

고급
Question 4 [22 points]

We are interested in estimating the model:
$\log(fare_{it}) = \vartheta_t + \beta_1 concen_{it} + \beta_2 \log(dist_i) + \beta_3 [\log(dist_i)]^2 + \alpha_i + u_{it}$

where fare is average one-way fare, concen is the market share of the largest airline (for given route) and dist is distance in miles. Data is obtained from the Domestic Airline Fares Consumer Report by the U.S. Department of Transportation. $\vartheta_t$ means we allow for different year intercept. There are 1,149 routes and 4 years (1997-2000) in this data set.

Q: 왜 같은 데이터로 정반대의 결과가 나왔나요?
A: Omitted Variable Bias의 완벽한 예시입니다!

상황을 커피숍으로 비유해보면:

단순 회귀 (part a): concen 계수 = -0.492
• "독점일수록 가격이 싸다?" → 말이 안 됨!
• 실제로는: 시골 노선(독점)은 수요가 적어 싸고, 도시 노선(경쟁)은 비쌈

Fixed Effects (part b): concen 계수 = +0.103
• 같은 노선 내에서 시간에 따른 변화만 봄
• "독점 증가 → 가격 상승" → 이제 말이 됨!

마치 스타벅스(경쟁 많음, 비쌈)와 시골 카페(독점, 저렴)를 단순 비교하면 "경쟁이 가격을 올린다"고 잘못 결론내리는 것과 같습니다!

Panel Data의 핵심 개념

1

Within vs Between Variation

Within: 같은 개체 내 시간에 따른 변화

Between: 서로 다른 개체 간 차이

예시: 당신의 몸무게 변화(within) vs 사람들 간 몸무게 차이(between)

2

Fixed Effects의 마법

제거되는 것: 시간불변 개체특성 ($\alpha_i$)

남는 것: 시간에 따른 변화만

장점: 관찰 안 되는 특성으로 인한 bias 제거

3

Year Dummies의 역할

Part (d): y98, y99, y00 추가

효과: 전체적인 시간 트렌드 통제

해석: 2000년 요금이 1997년보다 9.78% 높음

Part (e): Distance 통제의 비밀

질문: Do any of the models above control for distance? Why or why not?

Solution

Fixed effects model controls for distance since distance has only i subscript, it changes across routes but does not change over time (it is a route-fixed effect)

핵심 통찰:

  • $dist_i$는 i subscript만 있음 → 시간에 따라 변하지 않음
  • 뉴욕-LA 거리는 1997년이나 2000년이나 동일!
  • Fixed effects $\alpha_i$가 이미 거리 효과를 흡수
  • 따라서 별도로 거리 변수를 넣을 수 없음 (perfect collinearity)
계수 해석의 변화
Model concen 계수 해석 의미
Simple OLS -0.492 1%p 시장점유율 ↑ → 49% 요금 ↓ 잘못된 결과 (OVB)
Fixed Effects +0.103 1%p 시장점유율 ↑ → 10% 요금 ↑ 경제 이론과 일치
FE + Year +0.169 1%p 시장점유율 ↑ → 17% 요금 ↑ 시간 트렌드 통제 후
실무 시사점:
• 항공 규제 정책: 경쟁 촉진이 요금 인하에 도움
• 단순 비교는 위험: 노선 특성 통제 필수
• 시간 효과도 중요: 유가, 인플레이션 등

실전 문제 풀이 전략

종합

문제 유형별 접근법

1

Interaction Terms 문제

• Main effect = baseline (다른 변수가 0일 때)

• Total effect = main + interaction × other variable

• Break-even point 찾기: total effect = 0 되는 지점

• Joint significance: F-test 필요 (multicollinearity 주의)

2

Binary Choice Models

• LPM: 직접 해석, 계수 = percentage point 변화

• Probit: z-score 계산 → 표에서 확률 찾기

• Logit: $F(z) = 1/(1+e^{-z})$ 계산

• CI 계산: 개별 계수 CI를 배수로 확장

3

Panel Data 분석

• Simple OLS vs FE 비교 → OVB 확인

• 시간불변 변수는 FE에서 drop됨

• Year dummies로 common time trends 통제

• Within R-squared 해석 주의

문제 유형별 함정과 대처법

1

Interaction Terms 함정

함정: Main effect를 전체 효과로 해석

대처: "when X₂ = 0"임을 항상 명시

변형: 3-way interaction 가능 (X₁×X₂×X₃)

예시: 성별×교육×경험의 3중 상호작용

2

Binary Models 함정

함정: LPM에서 확률 > 1 나와도 당황 안 하기

대처: "이론적 한계"라고 명시하고 계속 진행

변형: Ordered Probit (만족도 1-5)

계산 팁: e⁰ = 1, e¹ ≈ 2.718 암기

3

Panel Data 함정

함정: Time-invariant 변수 계수 요구

대처: "FE에서는 drop됨" 명시

변형: Random Effects 비교 문제

핵심: Hausman test로 FE vs RE 선택

시험 당일 체크리스트:
✓ 계산기 준비 (log, exp 기능 확인)
✓ 통계표 활용법 숙지 (특히 음수 z-score)
✓ 소수점 자리수 요구사항 확인
✓ Robust SE 해석 주의
✓ 시간 배분: 각 문제 20-25분
꼭 기억해야 할 공식들

Interaction Effect:

$$\frac{\partial Y}{\partial X_1} = \beta_1 + \beta_3 X_2$$

Probit Marginal Effect:

$$P(Y=1|X_1=1) - P(Y=1|X_1=0) = \Phi(z_1) - \Phi(z_0)$$

Log Model Interpretation:

$$\text{1 unit change in X} \rightarrow 100\beta_1\% \text{ change in Y}$$

Fixed Effects Transformation:

$$\tilde{Y}_{it} = Y_{it} - \bar{Y}_i$$
예상 변형 문제들

1. Triple Interaction

$Wage = \beta_0 + \beta_1Male + \beta_2Married + \beta_3Educ + \beta_4(Male×Married×Educ)$

해석: 교육의 임금 효과가 성별과 결혼 여부에 따라 다름

2. Multinomial Logit

종속변수가 3개 이상 범주 (예: 실업/파트타임/풀타임)

접근: Base category 대비 각각의 log-odds 계산

3. Dynamic Panel

$Y_{it} = \alpha + \rho Y_{i,t-1} + \beta X_{it} + \mu_i + \varepsilon_{it}$

문제: Lagged dependent variable과 fixed effect의 상관관계

4. Difference-in-Differences with Panel

Treatment group과 time interaction in panel setting

핵심: Parallel trends assumption 검증

주요 개념 연결도