Binary Dependent Variables란?

기초
? 왜 Binary Variables가 특별한가?

지금까지 우리가 다룬 dependent variable은 continuous했습니다:

  • Test scores (0-100점)
  • Wages (연속적인 달러 금액)
  • GDP growth rate (연속적인 퍼센트)

하지만 현실의 많은 선택은 binary (0 or 1)입니다:

  • 대학 합격 여부 (합격=1, 불합격=0)
  • 대출 승인 여부 (승인=1, 거절=0)
  • 흡연 여부 (흡연자=1, 비흡연자=0)
  • 결혼 여부 (기혼=1, 미혼=0)
Q: 왜 일반 OLS를 binary outcome에 바로 적용하면 안 될까요?
A: 커피숍 예시를 생각해보세요!

당신이 스타벅스에 갈지(Y=1) 말지(Y=0)를 결정하는 상황입니다. 소득(X)이 증가하면 스타벅스에 갈 확률이 증가한다고 가정합시다.

OLS로 $Y = \beta_0 + \beta_1 X + u$를 추정하면:
• 부자 CEO의 예측값: $\hat{Y} = 1.5$ (확률이 150%? 말이 안 됨!)
• 극빈층의 예측값: $\hat{Y} = -0.3$ (확률이 -30%? 역시 말이 안 됨!)

확률은 반드시 0과 1 사이여야 합니다. 이것이 핵심 문제입니다!

Binary Y의 핵심 특성

1

Expected Value = Probability

Y가 binary일 때:

$$E(Y|X) = 1 \times Pr(Y=1|X) + 0 \times Pr(Y=0|X) = Pr(Y=1|X)$$

예: 대출 승인율이 70%라면, E(승인) = 0.7

2

세 가지 접근 방법

Linear Probability Model (LPM): 단순하지만 문제 있음

Probit: 정규분포 활용 (bell curve)

Logit: 로지스틱 분포 활용 (S-curve)

HMDA Data: 주택 대출 차별 연구

1990년 보스턴 지역의 주택 대출 데이터:

  • Y = deny: 대출 거절(1) vs 승인(0)
  • X₁ = P/I ratio: 월 상환액/월 소득 비율
  • X₂ = black: 신청자가 흑인인지 여부
  • 관찰 수: 2,380개의 대출 신청
연구 질문: 인종이 대출 거절 확률에 영향을 미치는가?
이것은 차별의 증거인가, 아니면 다른 요인들 때문인가?
Binary Outcome의 분포: 대출 거절 데이터

Linear Probability Model (LPM)

쉬움
LPM의 정의와 해석

가장 단순한 접근: 그냥 OLS를 돌린다!

$$Y_i = \beta_0 + \beta_1 X_i + u_i$$

Y가 binary일 때 자동으로:

$$Pr(Y=1|X) = \beta_0 + \beta_1 X$$
주의: $\beta_1$의 단위는 "percentage points"입니다!
$\beta_1 = 0.1$이면 X가 1 증가할 때 Y=1일 확률이 10 percentage points 증가
실제 LPM 추정: HMDA 데이터

Model 1: P/I ratio만 사용

$$\widehat{deny} = -0.080 + 0.604 \times P/I\_ratio$$ $$(0.032) \quad (0.098)$$

해석:

  • P/I ratio = 0.3인 사람: $\hat{P} = -0.080 + 0.604(0.3) = 0.101$ (10.1% 거절 확률)
  • P/I ratio = 0.4인 사람: $\hat{P} = -0.080 + 0.604(0.4) = 0.162$ (16.2% 거절 확률)
  • 효과: P/I ratio 0.1 증가 → 거절 확률 6.04 percentage points 증가

Model 2: 인종 변수 추가

$$\widehat{deny} = -0.091 + 0.559 \times P/I\_ratio + 0.177 \times black$$ $$(0.032) \quad (0.098) \quad\quad\quad\quad\quad (0.025)$$

해석:

  • 동일한 P/I ratio에서 흑인은 백인보다 17.7 percentage points 높은 거절 확률
  • 이것은 매우 큰 차이! (평균 거절률이 12%인 것을 고려하면)
Q: LPM의 장점과 단점은 무엇인가요?
A: 피자 가게 예시로 설명하겠습니다!

장점 (왜 피자집 사장이 LPM을 좋아할까?):
1. 간단함: "광고비 $1,000 증가 → 구매 확률 5% 증가" (바로 이해 가능!)
2. OLS 사용: 익숙한 방법, heteroskedasticity-robust SE만 쓰면 됨
3. 해석 직관적: percentage point 변화로 바로 읽힘

단점 (왜 통계학자가 걱정할까?):
1. 불가능한 예측:
   • 부자 동네: 구매 확률 = 130%? (말이 안 됨!)
   • 극빈 동네: 구매 확률 = -20%? (역시 말이 안 됨!)
2. 비현실적 가정: 효과가 항상 일정하다고 가정
   • 현실: 이미 구매 확률이 90%인 사람 vs 10%인 사람
   • 같은 광고 효과일까? 아닐 것!
! LPM의 수학적 문제점

1. Heteroskedasticity (이분산성)

Y가 binary일 때:

$$Var(u_i|X_i) = Pr(Y=1|X_i)[1-Pr(Y=1|X_i)] = p_i(1-p_i)$$

→ X에 따라 오차의 분산이 달라짐! (중간 확률에서 최대)

2. Predicted Probabilities 문제

  • $\hat{Y} < 0$ 또는 $\hat{Y} > 1$ 가능
  • 특히 extreme X values에서 심각
  • 해결책? → Probit이나 Logit 사용!
LPM의 문제점: 불가능한 확률 예측

Probit Model

중급
Probit Model의 아이디어

학생의 대학 합격을 예로 들어보겠습니다:

  1. 숨겨진 변수 (Latent Variable): $Y_i^* = \beta_0 + \beta_1 X_i + u_i$
    → 학생의 "진짜 실력" (관찰 불가능)
  2. 관찰되는 결과:
    $Y_i = 1$ if $Y_i^* > 0$ (합격선 통과 → 합격)
    $Y_i = 0$ if $Y_i^* \leq 0$ (합격선 미달 → 불합격)

Probit은 오차항이 표준정규분포를 따른다고 가정:

$$Pr(Y=1|X) = Pr(Y^* > 0) = Pr(\beta_0 + \beta_1 X + u > 0) = \Phi(\beta_0 + \beta_1 X)$$

여기서 $\Phi$는 표준정규분포의 CDF (누적분포함수)

Q: 왜 정규분포를 사용할까요? 그리고 $\Phi$가 뭔가요?
A: 키 분포로 생각해보세요!

농구팀 선발을 예로 들면:
• 키가 180cm 이상이면 선발(Y=1), 미만이면 탈락(Y=0)
• 사람들의 키는 대략 정규분포를 따름
• 평균 키가 170cm, 표준편차 10cm라면?

$\Phi$는 "누적" 확률입니다:
• $\Phi(0) = 0.5$ → 평균일 때 50% 확률
• $\Phi(1) = 0.841$ → 평균+1SD일 때 84.1% 확률
• $\Phi(-1) = 0.159$ → 평균-1SD일 때 15.9% 확률

Probit의 장점: 확률이 항상 0과 1 사이!
극단적인 X에서도 0에 가깝거나 1에 가까울 뿐, 절대 벗어나지 않음
Probit 추정 결과: HMDA 데이터

Model 1: P/I ratio만

$$Pr(\widehat{deny}=1|P/I) = \Phi(-2.19 + 2.97 \times P/I\_ratio)$$ $$(0.16) \quad (0.47)$$

예측 확률 계산:

P/I ratio = 0.3인 경우:

$z = -2.19 + 2.97(0.3) = -1.30$

$Pr(deny=1) = \Phi(-1.30) = 0.097$ (9.7%)

P/I ratio = 0.4인 경우:

$z = -2.19 + 2.97(0.4) = -1.00$

$Pr(deny=1) = \Phi(-1.00) = 0.159$ (15.9%)

효과: 6.2 percentage points 증가

Model 2: 인종 변수 추가

$$Pr(\widehat{deny}=1) = \Phi(-2.26 + 2.74 \times P/I + 0.71 \times black)$$ $$(0.16) \quad (0.44) \quad\quad (0.08)$$

인종별 예측 (P/I = 0.3):

인종 계산 z-score 거절 확률
백인 -2.26 + 2.74(0.3) + 0.71(0) -1.44 7.5%
흑인 -2.26 + 2.74(0.3) + 0.71(1) -0.73 23.3%
차이 - - 15.8%p

Probit 계수 해석의 핵심

1

계수 자체는 해석 어려움

$\beta_1 = 2.74$가 무슨 의미? → 직접 해석 불가!

부호(+/-)와 유의성만 확인 가능

2

Marginal Effect는 X에 따라 다름

$\frac{\partial Pr(Y=1|X)}{\partial X} = \phi(\beta_0 + \beta_1 X) \times \beta_1$

여기서 $\phi$는 표준정규분포의 PDF (종 모양)

→ 중간 확률에서 효과 최대!

3

실제 계산은 시나리오별로

특정 X 값에서 확률 계산 → 비교

예: "평균적인 사람"의 확률 변화

Probit vs LPM: S-curve vs 직선

Logit Model

중급
Logit Model: 또 다른 S-curve

Logit은 logistic distribution을 사용합니다:

$$Pr(Y=1|X) = F(\beta_0 + \beta_1 X) = \frac{1}{1 + e^{-(\beta_0 + \beta_1 X)}}$$

이것을 변형하면 흥미로운 해석이 가능합니다:

$$\ln\left(\frac{Pr(Y=1|X)}{Pr(Y=0|X)}\right) = \beta_0 + \beta_1 X$$

→ Log odds (로그 승산)가 X에 대해 선형!

Q: Odds가 뭐고, 왜 log를 취할까요?
A: 도박장 예시로 설명하겠습니다!

Odds (승산)란?
• 확률 75% = odds 3:1 (이길 확률이 질 확률의 3배)
• 확률 50% = odds 1:1 (동일)
• 확률 25% = odds 1:3 (질 확률이 이길 확률의 3배)

수식으로: $odds = \frac{p}{1-p}$

왜 log odds?
1. 대칭성:
   • 확률 0.9 → 0.1로 가는 것과
   • 확률 0.1 → 0.9로 가는 것이 log odds에서는 같은 거리!

2. 무한 범위:
   • 확률: 0~1로 제한
   • Odds: 0~∞
   • Log odds: -∞~+∞ (회귀분석에 적합!)
Logit 추정 결과: HMDA 데이터

추정 결과:

$$Pr(\widehat{deny}=1) = F(-4.13 + 5.37 \times P/I + 1.27 \times black)$$ $$(0.35) \quad (0.96) \quad\quad (0.15)$$

계산 예시 (백인, P/I = 0.3):

1. Linear combination: $z = -4.13 + 5.37(0.3) + 1.27(0) = -2.52$

2. 확률 계산: $Pr = \frac{1}{1 + e^{-(-2.52)}} = \frac{1}{1 + e^{2.52}} = \frac{1}{1 + 12.43} = 0.074$

→ 7.4% 거절 확률 (Probit에서는 7.5%였음 - 거의 동일!)

Odds ratio 해석:

  • 흑인의 log odds는 백인보다 1.27 높음
  • Odds ratio = $e^{1.27} = 3.56$
  • 즉, 흑인의 거절 odds는 백인의 3.56배!
VS Probit vs Logit 비교
특성 Probit Logit
분포 표준정규분포 로지스틱 분포
꼬리 얇은 꼬리 (빠르게 0/1 접근) 두꺼운 꼬리 (천천히 0/1 접근)
계산 $\Phi$ 테이블 필요 직접 계산 가능
해석 Latent variable 해석 Odds ratio 해석 가능
실제 차이 거의 없음! (계수에 약 1.6배 차이)
실무 팁: Probit과 Logit의 예측 확률은 거의 동일합니다.
선택은 주로 해석의 편의성이나 분야별 관행에 따릅니다.
• 경제학: Probit 선호 (latent variable 해석)
• 의학/역학: Logit 선호 (odds ratio 해석)
Probit vs Logit: 미묘한 차이

Maximum Likelihood Estimation

고급
Q: 왜 Probit/Logit에서는 OLS를 못 쓰고 MLE를 써야 하나요?
A: 동전 던지기로 설명하겠습니다!

상황: 동전이 공정한지 알고 싶습니다 (앞면 확률 = p)
10번 던져서 앞면 7번, 뒷면 3번이 나왔습니다.

OLS 접근 (불가능):
• Y = 1,1,1,1,1,1,1,0,0,0
• 무엇을 X로 놓을까? 동전은 변하지 않는데?

MLE 접근:
• "어떤 p 값이 이 데이터를 볼 가능성을 최대화할까?"
• Likelihood = $p^7(1-p)^3$
• 미분해서 최대값 찾기 → $\hat{p} = 0.7$

Probit/Logit도 마찬가지! 관찰된 0과 1의 패턴을 가장 잘 설명하는 $\beta$를 찾습니다.
MLE의 기본 원리

1. Likelihood Function 구성

각 관찰값이 나올 확률의 곱:

$$L(\beta_0, \beta_1) = \prod_{i=1}^n [Pr(Y_i=1|X_i)]^{Y_i} \times [Pr(Y_i=0|X_i)]^{1-Y_i}$$

2. Log Likelihood로 변환

계산 편의를 위해 로그 변환:

$$\ln L = \sum_{i=1}^n \{Y_i \ln[Pr(Y_i=1|X_i)] + (1-Y_i)\ln[Pr(Y_i=0|X_i)]\}$$

3. 최적화

컴퓨터가 반복적으로 $\beta$ 값을 조정하여 log likelihood 최대화

→ STATA 출력에서 "Iteration 0, 1, 2, ..." 보이는 이유!

간단한 MLE 예제: Bernoulli

문제: Y = {1, 0, 0, 1, 1, 0, 1, 0, 1, 1} (n=10, 성공 6번)

$Pr(Y=1) = p$를 추정하고 싶습니다.

Step 1: Likelihood 쓰기

$L(p) = p^6(1-p)^4$

Step 2: Log likelihood

$\ln L(p) = 6\ln(p) + 4\ln(1-p)$

Step 3: 미분해서 0 되는 점 찾기

$\frac{d\ln L}{dp} = \frac{6}{p} - \frac{4}{1-p} = 0$

Step 4: 풀기

$6(1-p) = 4p$ → $6 = 10p$ → $\hat{p}_{MLE} = 0.6$

놀랍게도 단순 비율과 같음! (이건 특수한 경우)

MLE의 성질과 추론

1

대표본 성질

일치성: n→∞일 때 진짜 값으로 수렴

정규성: 대표본에서 정규분포 근사

효율성: 가장 작은 분산 (최적!)

2

가설검정

z-test: 개별 계수 (t-test와 유사)

Wald test: 여러 제약 동시 검정

LR test: 모델 비교 (제약/비제약)

3

모델 적합도

Pseudo-$R^2$: $1 - \frac{\ln L_{full}}{\ln L_{null}}$

정확 예측률: $\hat{Y} > 0.5$면 1로 예측

• 일반 $R^2$와는 다른 개념!

시험 팁: MLE 유도 과정을 외울 필요는 없습니다!
중요한 것은:
1. MLE가 "가장 그럴듯한" 파라미터를 찾는다는 개념
2. 결과 해석 방법 (확률 계산, marginal effect)
3. 가설검정은 OLS와 유사 (z-test 사용)

Application: 주택 대출 차별 분석

실전
연구 배경과 데이터

연구 질문: 주택 대출 심사에서 인종 차별이 존재하는가?

HMDA 데이터 (1990년 보스턴):

  • 2,380개 대출 신청
  • 거절률: 전체 12%, 백인 8%, 흑인 28%
  • 하지만 이것만으로 차별이라고 할 수 있을까?

주요 변수들:

변수 설명 평균
P/I ratio 월 상환액/월 소득 0.331
housing expense ratio 주거비/소득 0.255
loan-to-value ratio 대출액/주택가치 0.738
credit score 신용점수 (1-6) 2.1
black 흑인 여부 0.142
단계별 회귀분석 결과

Step 1: 단순 비교 (인종만)

$$Probit: \quad effect = 0.389 \quad (0.098)$$

→ 흑인의 거절 확률이 훨씬 높음 (매우 유의)

Step 2: 금융 변수 통제

$$effect = 0.371 \quad (0.099)$$

→ 약간 감소했지만 여전히 큼

Step 3: 모든 변수 통제

$$effect = 0.246 \quad (0.448)$$

→ 크게 감소! 하지만 여전히 유의

실질적 효과 크기:

평균적인 신청자 기준, 흑인의 거절 확률이 6-7 percentage points 높음

평균 거절률 12%를 고려하면 이는 50% 이상의 차이!

Q: 이 결과가 정말 차별의 증거일까요?
A: 신중해야 합니다! 여전히 남은 문제들:

1. Omitted Variable Bias:
• 대출 담당자가 보는 정보 vs 연구자가 보는 정보
• 면접에서의 인상, 직업 안정성, 가족 재산 등
• 이런 변수들이 인종과 상관있다면?

2. Sample Selection:
• 신청조차 안 한 사람들은?
• 차별을 예상하고 포기한 흑인들이 있다면?

3. Statistical vs Taste-based Discrimination:
• 통계적 차별: 평균적 특성으로 판단 (합리적?)
• 선호 기반 차별: 순수한 편견 (비합리적)
• 구분이 가능한가?

결론: 강력한 상관관계는 확실, 인과관계는 여전히 논란

정책적 시사점

1

증거의 힘

통제변수를 많이 넣어도 인종 효과가 유의

→ 어떤 형태든 차별 가능성 시사

2

정책 대응

• 대출 심사 기준 명확화

• 알고리즘 기반 심사 도입

• 정기적 모니터링

3

추가 연구 필요

• Audit studies (가짜 신청자)

• 장기 추적 연구

• 다른 지역/시기 비교

인종별 거절률: 통제변수 추가에 따른 변화

Practice Problems

실전
Problem 1

교육과 고용의 관계를 연구하고 있습니다. 데이터:
• employed = 1 if 취업, 0 if 실업
• educ = 교육연수
• alcdep = 1 if 알코올 의존, 0 otherwise

LPM 결과: $\widehat{employed} = 0.460 + 0.0274 \times educ - 0.122 \times alcdep$
                         $(0.049)$  $(0.0035)$            $(0.040)$

(a) 고졸(12년)과 대졸(16년)의 취업 확률 차이는? (알코올 비의존자)
(b) 알코올 의존의 효과를 percentage로 표현하면? (평균 취업률 78% 기준)
(c) LPM의 문제점은 무엇일까요?

Solution

(a) 교육 효과 계산:

교육 4년 차이의 효과 = $0.0274 \times 4 = 0.1096$

→ 대졸자가 고졸자보다 11 percentage points 높은 취업률

(b) 알코올 의존 효과:

절대 효과: -12.2 percentage points

상대 효과: $\frac{-0.122}{0.78} \times 100\% = -15.6\%$

→ 알코올 의존자는 비의존자 대비 15.6% 낮은 취업률

(c) LPM의 문제점:

  • 극단값에서 불가능한 예측 (예: 교육 0년 → 46% 취업률은 OK, 하지만...)
  • 교육 25년이면? 취업률 = 146.5%? (불가능!)
  • Heteroskedasticity 존재 → robust SE 필요
  • Marginal effect가 항상 일정하다는 비현실적 가정
Problem 2

같은 데이터로 Probit 추정:
$Pr(\widehat{employed}=1) = \Phi(-0.31 + 0.096 \times educ - 0.397 \times alcdep)$
                                    $(0.16)$   $(0.013)$             $(0.119)$

고졸(12년) 비의존자의 취업 확률을 계산하세요. 다음 값들을 사용:
$\Phi(0.77) = 0.7794$, $\Phi(0.38) = 0.6480$, $\Phi(0.85) = 0.8023$

Solution

고졸 비의존자 (educ=12, alcdep=0):

$z = -0.31 + 0.096(12) - 0.397(0)$

$z = -0.31 + 1.152 = 0.842 \approx 0.85$

$Pr(employed=1) = \Phi(0.85) = 0.8023$

→ 약 80.2% 취업 확률

비교: LPM에서는 78.8%였음 (비슷하지만 약간 다름)

Problem 3

인종별 주택 대출 분석 (종합 문제):

다음 세 모델을 비교하세요:
LPM: $\widehat{deny} = -0.091 + 0.559 \times P/I + 0.177 \times black$
Probit: $Pr(\widehat{deny}=1) = \Phi(-2.26 + 2.74 \times P/I + 0.71 \times black)$
Logit: $Pr(\widehat{deny}=1) = F(-4.13 + 5.37 \times P/I + 1.27 \times black)$

(a) 각 모델에서 P/I=0.3인 백인과 흑인의 거절 확률 차이를 계산하세요.
(b) 왜 계수들이 다른가요? 어떤 모델을 선택해야 할까요?
(c) Pseudo-$R^2 = 0.086$의 의미는 무엇인가요?

Solution

(a) 모델별 인종 효과:

모델 백인 (P/I=0.3) 흑인 (P/I=0.3) 차이
LPM 7.7% 25.4% 17.7%p
Probit 7.5% 23.3% 15.8%p
Logit 7.4% 23.2% 15.8%p

(b) 계수 차이의 이유:

  • 척도 차이: LPM은 확률 자체, Probit/Logit은 latent variable
  • Link function: 선형 vs $\Phi$ vs logistic
  • 결과는 유사: 예측 확률은 거의 동일 (15.8-17.7%p)
  • 선택 기준:
    - 단순 해석 원하면 LPM
    - 이론적 엄밀성 원하면 Probit/Logit
    - Odds ratio 해석 원하면 Logit

(c) Pseudo-$R^2$ 해석:

  • 일반 $R^2$와 다름! (직접 비교 불가)
  • 0.086은 상당히 낮은 편
  • 하지만 binary outcome에서는 흔한 일
  • 개별 대출 결정은 예측하기 어려움
  • 그래도 인종 효과는 통계적으로 유의!
Problem 4

MLE 이해 문제:

100명 중 30명이 스타벅스를 선택했습니다 (Y=1).
소득(X)에 따른 선택을 Logit으로 모델링하려 합니다.

(a) 소득을 무시하고 전체 선택 확률만 추정한다면 MLE 추정치는?
(b) Log likelihood는 어떻게 계산되나요?
(c) 왜 OLS 대신 MLE를 사용해야 하나요?

Solution

(a) Intercept-only 모델:

$Pr(Y=1) = \frac{1}{1+e^{-\beta_0}}$

MLE 추정: $\hat{p} = 30/100 = 0.3$

따라서: $0.3 = \frac{1}{1+e^{-\beta_0}}$

풀면: $e^{-\beta_0} = \frac{0.7}{0.3} = 2.33$

$\hat{\beta}_0 = -\ln(2.33) = -0.847$

(b) Log likelihood 계산:

$\ln L = 30 \ln(0.3) + 70 \ln(0.7)$

$= 30(-1.204) + 70(-0.357)$

$= -36.12 - 24.99 = -61.11$

(c) MLE가 필요한 이유:

  • OLS 가정 위반: Y가 0/1이면 오차항이 정규분포 아님
  • Heteroskedasticity: $Var(u|X) = p(1-p)$로 X에 따라 변함
  • 예측값 문제: OLS는 [0,1] 벗어날 수 있음
  • MLE 장점:
    - 분포 가정에 맞는 추정
    - 효율적 (최소 분산)
    - 대표본에서 정규분포
Problem 5 (종합)

병원 입원 결정 분석:
Y = 1 if 입원, 0 otherwise
X₁ = age (나이)
X₂ = severity (증상 심각도, 1-10)
X₃ = insurance (보험 있음=1)

Probit 결과: $Pr(\widehat{admit}=1) = \Phi(-3.0 + 0.02 \times age + 0.4 \times severity + 0.3 \times insurance)$

(a) 50세, 증상 5, 보험 있는 환자의 입원 확률은? [$\Phi(0.7) = 0.758$]
(b) 증상이 5→7로 악화되면 입원 확률은 얼마나 증가?
(c) 보험의 효과를 어떻게 해석해야 할까요?
(d) Interaction term (age × insurance)을 추가한다면 어떤 의미?

Solution

(a) 기본 확률 계산:

$z = -3.0 + 0.02(50) + 0.4(5) + 0.3(1)$

$= -3.0 + 1.0 + 2.0 + 0.3 = 0.3$

$Pr(admit=1) = \Phi(0.3) \approx 0.618$ (약 62%)

(b) 증상 악화 효과:

증상=7일 때: $z = 0.3 + 0.4(7-5) = 0.3 + 0.8 = 1.1$

$Pr(admit=1) = \Phi(1.1) \approx 0.864$ (약 86%)

증가폭: 86% - 62% = 24 percentage points

→ 매우 큰 효과! (증상 2단계 차이가 입원률 24%p 차이)

(c) 보험 효과의 해석:

  • 직접 효과: 동일 조건에서 보험 있으면 입원 확률 높음
  • 가능한 이유들:
    1. 도덕적 해이: 보험 있으면 입원 선호
    2. 접근성: 보험 없으면 비용 부담으로 입원 기피
    3. 의사 행동: 보험 환자에게 입원 권유
  • 정책적 함의: 의료 이용의 형평성 vs 효율성

(d) Age × Insurance interaction의 의미:

  • 보험 효과가 나이에 따라 다를 수 있음
  • 예: 젊은 층은 보험 있어도 입원 기피 (일 때문에)
  • 노년층은 보험 있으면 적극적 입원
  • 모델: $\beta_3 + \beta_5 \times age$ (나이별 보험 효과)
시험 전 마지막 체크: Binary 모델의 핵심을 정말 이해했나요?
스스로에게 물어보세요:

1. 왜 일반 회귀분석이 안 되는가?
→ 확률은 0-1 사이여야 함, heteroskedasticity

2. LPM vs Probit/Logit 선택 기준은?
→ 단순함 vs 이론적 타당성

3. 계수 해석 방법을 아는가?
→ LPM은 직접, Probit/Logit은 확률 계산 필요

4. Marginal effect가 왜 중요한가?
→ 실제 정책 효과는 확률 변화로 측정

5. MLE의 기본 아이디어는?
→ 관찰된 데이터가 나올 가능성 최대화

이 모든 질문에 자신 있게 답할 수 있다면 준비 완료!

핵심 요약: Exam 2 대비

Binary Dependent Variables 완벽 정리

1

세 가지 모델 비교

LPM: $Pr(Y=1|X) = \beta_0 + \beta_1 X$ 직접 해석
Probit: $Pr(Y=1|X) = \Phi(\beta_0 + \beta_1 X)$ 표준정규 CDF
Logit: $Pr(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X)}}$ Odds ratio
2

계산 암기 사항

LPM: $\beta_1$ = percentage point 변화

Probit/Logit: 특정 X에서 확률 계산 후 차이

표준정규분포표: $\Phi(0)=0.5$, $\Phi(1)=0.841$, $\Phi(-1)=0.159$

Logit 계산: $F(z) = \frac{1}{1+e^{-z}} = \frac{e^z}{1+e^z}$

3

자주 나오는 실수

• Probit/Logit 계수를 직접 해석 (X)

• Percentage vs percentage points 혼동

• Pseudo-$R^2$를 일반 $R^2$처럼 해석

• MLE가 왜 필요한지 모름

4

시험 전략

• 계산 문제: 단계별로 명확히 표시

• 해석 문제: 실제 의미 설명 (단위 포함)

• 모델 선택: 장단점 비교 언급

• 시간 부족 시: LPM부터 완벽히

5

실전 응용 포인트

차별 연구: OVB 가능성 항상 언급

정책 평가: 실질적 크기 (magnitude) 중요

예측: 극단값에서 LPM 문제 지적

가설검정: z-test 사용 (not t-test)

Exam 2 최종 체크리스트:
✓ Binary Y일 때 E(Y|X) = Pr(Y=1|X) 이해
✓ LPM의 장단점과 해석 방법
✓ Probit에서 $\Phi$ 사용한 확률 계산
✓ Logit에서 odds ratio 해석
✓ MLE vs OLS 차이점
✓ 실제 데이터 적용 시 OVB 고려
✓ Marginal effect는 X값에 따라 다름 (Probit/Logit)