Binary Dependent Variables란?
기초지금까지 우리가 다룬 dependent variable은 continuous했습니다:
- Test scores (0-100점)
- Wages (연속적인 달러 금액)
- GDP growth rate (연속적인 퍼센트)
하지만 현실의 많은 선택은 binary (0 or 1)입니다:
- 대학 합격 여부 (합격=1, 불합격=0)
- 대출 승인 여부 (승인=1, 거절=0)
- 흡연 여부 (흡연자=1, 비흡연자=0)
- 결혼 여부 (기혼=1, 미혼=0)
당신이 스타벅스에 갈지(Y=1) 말지(Y=0)를 결정하는 상황입니다. 소득(X)이 증가하면 스타벅스에 갈 확률이 증가한다고 가정합시다.
OLS로 $Y = \beta_0 + \beta_1 X + u$를 추정하면:
• 부자 CEO의 예측값: $\hat{Y} = 1.5$ (확률이 150%? 말이 안 됨!)
• 극빈층의 예측값: $\hat{Y} = -0.3$ (확률이 -30%? 역시 말이 안 됨!)
확률은 반드시 0과 1 사이여야 합니다. 이것이 핵심 문제입니다!
Binary Y의 핵심 특성
Expected Value = Probability
Y가 binary일 때:
예: 대출 승인율이 70%라면, E(승인) = 0.7
세 가지 접근 방법
Linear Probability Model (LPM): 단순하지만 문제 있음
Probit: 정규분포 활용 (bell curve)
Logit: 로지스틱 분포 활용 (S-curve)
1990년 보스턴 지역의 주택 대출 데이터:
- Y = deny: 대출 거절(1) vs 승인(0)
- X₁ = P/I ratio: 월 상환액/월 소득 비율
- X₂ = black: 신청자가 흑인인지 여부
- 관찰 수: 2,380개의 대출 신청
이것은 차별의 증거인가, 아니면 다른 요인들 때문인가?
Linear Probability Model (LPM)
쉬움가장 단순한 접근: 그냥 OLS를 돌린다!
Y가 binary일 때 자동으로:
$\beta_1 = 0.1$이면 X가 1 증가할 때 Y=1일 확률이 10 percentage points 증가
Model 1: P/I ratio만 사용
해석:
- P/I ratio = 0.3인 사람: $\hat{P} = -0.080 + 0.604(0.3) = 0.101$ (10.1% 거절 확률)
- P/I ratio = 0.4인 사람: $\hat{P} = -0.080 + 0.604(0.4) = 0.162$ (16.2% 거절 확률)
- 효과: P/I ratio 0.1 증가 → 거절 확률 6.04 percentage points 증가
Model 2: 인종 변수 추가
해석:
- 동일한 P/I ratio에서 흑인은 백인보다 17.7 percentage points 높은 거절 확률
- 이것은 매우 큰 차이! (평균 거절률이 12%인 것을 고려하면)
장점 (왜 피자집 사장이 LPM을 좋아할까?):
1. 간단함: "광고비 $1,000 증가 → 구매 확률 5% 증가" (바로 이해 가능!)
2. OLS 사용: 익숙한 방법, heteroskedasticity-robust SE만 쓰면 됨
3. 해석 직관적: percentage point 변화로 바로 읽힘
단점 (왜 통계학자가 걱정할까?):
1. 불가능한 예측:
• 부자 동네: 구매 확률 = 130%? (말이 안 됨!)
• 극빈 동네: 구매 확률 = -20%? (역시 말이 안 됨!)
2. 비현실적 가정: 효과가 항상 일정하다고 가정
• 현실: 이미 구매 확률이 90%인 사람 vs 10%인 사람
• 같은 광고 효과일까? 아닐 것!
1. Heteroskedasticity (이분산성)
Y가 binary일 때:
→ X에 따라 오차의 분산이 달라짐! (중간 확률에서 최대)
2. Predicted Probabilities 문제
- $\hat{Y} < 0$ 또는 $\hat{Y} > 1$ 가능
- 특히 extreme X values에서 심각
- 해결책? → Probit이나 Logit 사용!
Probit Model
중급학생의 대학 합격을 예로 들어보겠습니다:
- 숨겨진 변수 (Latent Variable): $Y_i^* = \beta_0 + \beta_1 X_i + u_i$
→ 학생의 "진짜 실력" (관찰 불가능) - 관찰되는 결과:
$Y_i = 1$ if $Y_i^* > 0$ (합격선 통과 → 합격)
$Y_i = 0$ if $Y_i^* \leq 0$ (합격선 미달 → 불합격)
Probit은 오차항이 표준정규분포를 따른다고 가정:
여기서 $\Phi$는 표준정규분포의 CDF (누적분포함수)
농구팀 선발을 예로 들면:
• 키가 180cm 이상이면 선발(Y=1), 미만이면 탈락(Y=0)
• 사람들의 키는 대략 정규분포를 따름
• 평균 키가 170cm, 표준편차 10cm라면?
$\Phi$는 "누적" 확률입니다:
• $\Phi(0) = 0.5$ → 평균일 때 50% 확률
• $\Phi(1) = 0.841$ → 평균+1SD일 때 84.1% 확률
• $\Phi(-1) = 0.159$ → 평균-1SD일 때 15.9% 확률
Probit의 장점: 확률이 항상 0과 1 사이!
극단적인 X에서도 0에 가깝거나 1에 가까울 뿐, 절대 벗어나지 않음
Model 1: P/I ratio만
예측 확률 계산:
P/I ratio = 0.3인 경우:
$z = -2.19 + 2.97(0.3) = -1.30$
$Pr(deny=1) = \Phi(-1.30) = 0.097$ (9.7%)
P/I ratio = 0.4인 경우:
$z = -2.19 + 2.97(0.4) = -1.00$
$Pr(deny=1) = \Phi(-1.00) = 0.159$ (15.9%)
효과: 6.2 percentage points 증가
Model 2: 인종 변수 추가
인종별 예측 (P/I = 0.3):
| 인종 | 계산 | z-score | 거절 확률 |
|---|---|---|---|
| 백인 | -2.26 + 2.74(0.3) + 0.71(0) | -1.44 | 7.5% |
| 흑인 | -2.26 + 2.74(0.3) + 0.71(1) | -0.73 | 23.3% |
| 차이 | - | - | 15.8%p |
Probit 계수 해석의 핵심
계수 자체는 해석 어려움
$\beta_1 = 2.74$가 무슨 의미? → 직접 해석 불가!
부호(+/-)와 유의성만 확인 가능
Marginal Effect는 X에 따라 다름
$\frac{\partial Pr(Y=1|X)}{\partial X} = \phi(\beta_0 + \beta_1 X) \times \beta_1$
여기서 $\phi$는 표준정규분포의 PDF (종 모양)
→ 중간 확률에서 효과 최대!
실제 계산은 시나리오별로
특정 X 값에서 확률 계산 → 비교
예: "평균적인 사람"의 확률 변화
Logit Model
중급Logit은 logistic distribution을 사용합니다:
이것을 변형하면 흥미로운 해석이 가능합니다:
→ Log odds (로그 승산)가 X에 대해 선형!
Odds (승산)란?
• 확률 75% = odds 3:1 (이길 확률이 질 확률의 3배)
• 확률 50% = odds 1:1 (동일)
• 확률 25% = odds 1:3 (질 확률이 이길 확률의 3배)
수식으로: $odds = \frac{p}{1-p}$
왜 log odds?
1. 대칭성:
• 확률 0.9 → 0.1로 가는 것과
• 확률 0.1 → 0.9로 가는 것이 log odds에서는 같은 거리!
2. 무한 범위:
• 확률: 0~1로 제한
• Odds: 0~∞
• Log odds: -∞~+∞ (회귀분석에 적합!)
추정 결과:
계산 예시 (백인, P/I = 0.3):
1. Linear combination: $z = -4.13 + 5.37(0.3) + 1.27(0) = -2.52$
2. 확률 계산: $Pr = \frac{1}{1 + e^{-(-2.52)}} = \frac{1}{1 + e^{2.52}} = \frac{1}{1 + 12.43} = 0.074$
→ 7.4% 거절 확률 (Probit에서는 7.5%였음 - 거의 동일!)
Odds ratio 해석:
- 흑인의 log odds는 백인보다 1.27 높음
- Odds ratio = $e^{1.27} = 3.56$
- 즉, 흑인의 거절 odds는 백인의 3.56배!
| 특성 | Probit | Logit |
|---|---|---|
| 분포 | 표준정규분포 | 로지스틱 분포 |
| 꼬리 | 얇은 꼬리 (빠르게 0/1 접근) | 두꺼운 꼬리 (천천히 0/1 접근) |
| 계산 | $\Phi$ 테이블 필요 | 직접 계산 가능 |
| 해석 | Latent variable 해석 | Odds ratio 해석 가능 |
| 실제 차이 | 거의 없음! (계수에 약 1.6배 차이) | |
선택은 주로 해석의 편의성이나 분야별 관행에 따릅니다.
• 경제학: Probit 선호 (latent variable 해석)
• 의학/역학: Logit 선호 (odds ratio 해석)
Maximum Likelihood Estimation
고급상황: 동전이 공정한지 알고 싶습니다 (앞면 확률 = p)
10번 던져서 앞면 7번, 뒷면 3번이 나왔습니다.
OLS 접근 (불가능):
• Y = 1,1,1,1,1,1,1,0,0,0
• 무엇을 X로 놓을까? 동전은 변하지 않는데?
MLE 접근:
• "어떤 p 값이 이 데이터를 볼 가능성을 최대화할까?"
• Likelihood = $p^7(1-p)^3$
• 미분해서 최대값 찾기 → $\hat{p} = 0.7$
Probit/Logit도 마찬가지! 관찰된 0과 1의 패턴을 가장 잘 설명하는 $\beta$를 찾습니다.
1. Likelihood Function 구성
각 관찰값이 나올 확률의 곱:
2. Log Likelihood로 변환
계산 편의를 위해 로그 변환:
3. 최적화
컴퓨터가 반복적으로 $\beta$ 값을 조정하여 log likelihood 최대화
→ STATA 출력에서 "Iteration 0, 1, 2, ..." 보이는 이유!
문제: Y = {1, 0, 0, 1, 1, 0, 1, 0, 1, 1} (n=10, 성공 6번)
$Pr(Y=1) = p$를 추정하고 싶습니다.
Step 1: Likelihood 쓰기
$L(p) = p^6(1-p)^4$
Step 2: Log likelihood
$\ln L(p) = 6\ln(p) + 4\ln(1-p)$
Step 3: 미분해서 0 되는 점 찾기
$\frac{d\ln L}{dp} = \frac{6}{p} - \frac{4}{1-p} = 0$
Step 4: 풀기
$6(1-p) = 4p$ → $6 = 10p$ → $\hat{p}_{MLE} = 0.6$
놀랍게도 단순 비율과 같음! (이건 특수한 경우)
MLE의 성질과 추론
대표본 성질
• 일치성: n→∞일 때 진짜 값으로 수렴
• 정규성: 대표본에서 정규분포 근사
• 효율성: 가장 작은 분산 (최적!)
가설검정
• z-test: 개별 계수 (t-test와 유사)
• Wald test: 여러 제약 동시 검정
• LR test: 모델 비교 (제약/비제약)
모델 적합도
• Pseudo-$R^2$: $1 - \frac{\ln L_{full}}{\ln L_{null}}$
• 정확 예측률: $\hat{Y} > 0.5$면 1로 예측
• 일반 $R^2$와는 다른 개념!
중요한 것은:
1. MLE가 "가장 그럴듯한" 파라미터를 찾는다는 개념
2. 결과 해석 방법 (확률 계산, marginal effect)
3. 가설검정은 OLS와 유사 (z-test 사용)
Application: 주택 대출 차별 분석
실전연구 질문: 주택 대출 심사에서 인종 차별이 존재하는가?
HMDA 데이터 (1990년 보스턴):
- 2,380개 대출 신청
- 거절률: 전체 12%, 백인 8%, 흑인 28%
- 하지만 이것만으로 차별이라고 할 수 있을까?
주요 변수들:
| 변수 | 설명 | 평균 |
|---|---|---|
| P/I ratio | 월 상환액/월 소득 | 0.331 |
| housing expense ratio | 주거비/소득 | 0.255 |
| loan-to-value ratio | 대출액/주택가치 | 0.738 |
| credit score | 신용점수 (1-6) | 2.1 |
| black | 흑인 여부 | 0.142 |
Step 1: 단순 비교 (인종만)
→ 흑인의 거절 확률이 훨씬 높음 (매우 유의)
Step 2: 금융 변수 통제
→ 약간 감소했지만 여전히 큼
Step 3: 모든 변수 통제
→ 크게 감소! 하지만 여전히 유의
실질적 효과 크기:
평균적인 신청자 기준, 흑인의 거절 확률이 6-7 percentage points 높음
평균 거절률 12%를 고려하면 이는 50% 이상의 차이!
1. Omitted Variable Bias:
• 대출 담당자가 보는 정보 vs 연구자가 보는 정보
• 면접에서의 인상, 직업 안정성, 가족 재산 등
• 이런 변수들이 인종과 상관있다면?
2. Sample Selection:
• 신청조차 안 한 사람들은?
• 차별을 예상하고 포기한 흑인들이 있다면?
3. Statistical vs Taste-based Discrimination:
• 통계적 차별: 평균적 특성으로 판단 (합리적?)
• 선호 기반 차별: 순수한 편견 (비합리적)
• 구분이 가능한가?
결론: 강력한 상관관계는 확실, 인과관계는 여전히 논란
정책적 시사점
증거의 힘
통제변수를 많이 넣어도 인종 효과가 유의
→ 어떤 형태든 차별 가능성 시사
정책 대응
• 대출 심사 기준 명확화
• 알고리즘 기반 심사 도입
• 정기적 모니터링
추가 연구 필요
• Audit studies (가짜 신청자)
• 장기 추적 연구
• 다른 지역/시기 비교
Practice Problems
실전교육과 고용의 관계를 연구하고 있습니다. 데이터:
• employed = 1 if 취업, 0 if 실업
• educ = 교육연수
• alcdep = 1 if 알코올 의존, 0 otherwise
LPM 결과: $\widehat{employed} = 0.460 + 0.0274 \times educ - 0.122 \times alcdep$
$(0.049)$ $(0.0035)$ $(0.040)$
(a) 고졸(12년)과 대졸(16년)의 취업 확률 차이는? (알코올 비의존자)
(b) 알코올 의존의 효과를 percentage로 표현하면? (평균 취업률 78% 기준)
(c) LPM의 문제점은 무엇일까요?
(a) 교육 효과 계산:
교육 4년 차이의 효과 = $0.0274 \times 4 = 0.1096$
→ 대졸자가 고졸자보다 11 percentage points 높은 취업률
(b) 알코올 의존 효과:
절대 효과: -12.2 percentage points
상대 효과: $\frac{-0.122}{0.78} \times 100\% = -15.6\%$
→ 알코올 의존자는 비의존자 대비 15.6% 낮은 취업률
(c) LPM의 문제점:
- 극단값에서 불가능한 예측 (예: 교육 0년 → 46% 취업률은 OK, 하지만...)
- 교육 25년이면? 취업률 = 146.5%? (불가능!)
- Heteroskedasticity 존재 → robust SE 필요
- Marginal effect가 항상 일정하다는 비현실적 가정
같은 데이터로 Probit 추정:
$Pr(\widehat{employed}=1) = \Phi(-0.31 + 0.096 \times educ - 0.397 \times alcdep)$
$(0.16)$ $(0.013)$ $(0.119)$
고졸(12년) 비의존자의 취업 확률을 계산하세요. 다음 값들을 사용:
$\Phi(0.77) = 0.7794$, $\Phi(0.38) = 0.6480$, $\Phi(0.85) = 0.8023$
고졸 비의존자 (educ=12, alcdep=0):
$z = -0.31 + 0.096(12) - 0.397(0)$
$z = -0.31 + 1.152 = 0.842 \approx 0.85$
$Pr(employed=1) = \Phi(0.85) = 0.8023$
→ 약 80.2% 취업 확률
비교: LPM에서는 78.8%였음 (비슷하지만 약간 다름)
인종별 주택 대출 분석 (종합 문제):
다음 세 모델을 비교하세요:
LPM: $\widehat{deny} = -0.091 + 0.559 \times P/I + 0.177 \times black$
Probit: $Pr(\widehat{deny}=1) = \Phi(-2.26 + 2.74 \times P/I + 0.71 \times black)$
Logit: $Pr(\widehat{deny}=1) = F(-4.13 + 5.37 \times P/I + 1.27 \times black)$
(a) 각 모델에서 P/I=0.3인 백인과 흑인의 거절 확률 차이를 계산하세요.
(b) 왜 계수들이 다른가요? 어떤 모델을 선택해야 할까요?
(c) Pseudo-$R^2 = 0.086$의 의미는 무엇인가요?
(a) 모델별 인종 효과:
| 모델 | 백인 (P/I=0.3) | 흑인 (P/I=0.3) | 차이 |
|---|---|---|---|
| LPM | 7.7% | 25.4% | 17.7%p |
| Probit | 7.5% | 23.3% | 15.8%p |
| Logit | 7.4% | 23.2% | 15.8%p |
(b) 계수 차이의 이유:
- 척도 차이: LPM은 확률 자체, Probit/Logit은 latent variable
- Link function: 선형 vs $\Phi$ vs logistic
- 결과는 유사: 예측 확률은 거의 동일 (15.8-17.7%p)
- 선택 기준:
- 단순 해석 원하면 LPM
- 이론적 엄밀성 원하면 Probit/Logit
- Odds ratio 해석 원하면 Logit
(c) Pseudo-$R^2$ 해석:
- 일반 $R^2$와 다름! (직접 비교 불가)
- 0.086은 상당히 낮은 편
- 하지만 binary outcome에서는 흔한 일
- 개별 대출 결정은 예측하기 어려움
- 그래도 인종 효과는 통계적으로 유의!
MLE 이해 문제:
100명 중 30명이 스타벅스를 선택했습니다 (Y=1).
소득(X)에 따른 선택을 Logit으로 모델링하려 합니다.
(a) 소득을 무시하고 전체 선택 확률만 추정한다면 MLE 추정치는?
(b) Log likelihood는 어떻게 계산되나요?
(c) 왜 OLS 대신 MLE를 사용해야 하나요?
(a) Intercept-only 모델:
$Pr(Y=1) = \frac{1}{1+e^{-\beta_0}}$
MLE 추정: $\hat{p} = 30/100 = 0.3$
따라서: $0.3 = \frac{1}{1+e^{-\beta_0}}$
풀면: $e^{-\beta_0} = \frac{0.7}{0.3} = 2.33$
$\hat{\beta}_0 = -\ln(2.33) = -0.847$
(b) Log likelihood 계산:
$\ln L = 30 \ln(0.3) + 70 \ln(0.7)$
$= 30(-1.204) + 70(-0.357)$
$= -36.12 - 24.99 = -61.11$
(c) MLE가 필요한 이유:
- OLS 가정 위반: Y가 0/1이면 오차항이 정규분포 아님
- Heteroskedasticity: $Var(u|X) = p(1-p)$로 X에 따라 변함
- 예측값 문제: OLS는 [0,1] 벗어날 수 있음
- MLE 장점:
- 분포 가정에 맞는 추정
- 효율적 (최소 분산)
- 대표본에서 정규분포
병원 입원 결정 분석:
Y = 1 if 입원, 0 otherwise
X₁ = age (나이)
X₂ = severity (증상 심각도, 1-10)
X₃ = insurance (보험 있음=1)
Probit 결과: $Pr(\widehat{admit}=1) = \Phi(-3.0 + 0.02 \times age + 0.4 \times severity + 0.3 \times insurance)$
(a) 50세, 증상 5, 보험 있는 환자의 입원 확률은? [$\Phi(0.7) = 0.758$]
(b) 증상이 5→7로 악화되면 입원 확률은 얼마나 증가?
(c) 보험의 효과를 어떻게 해석해야 할까요?
(d) Interaction term (age × insurance)을 추가한다면 어떤 의미?
(a) 기본 확률 계산:
$z = -3.0 + 0.02(50) + 0.4(5) + 0.3(1)$
$= -3.0 + 1.0 + 2.0 + 0.3 = 0.3$
$Pr(admit=1) = \Phi(0.3) \approx 0.618$ (약 62%)
(b) 증상 악화 효과:
증상=7일 때: $z = 0.3 + 0.4(7-5) = 0.3 + 0.8 = 1.1$
$Pr(admit=1) = \Phi(1.1) \approx 0.864$ (약 86%)
증가폭: 86% - 62% = 24 percentage points
→ 매우 큰 효과! (증상 2단계 차이가 입원률 24%p 차이)
(c) 보험 효과의 해석:
- 직접 효과: 동일 조건에서 보험 있으면 입원 확률 높음
- 가능한 이유들:
1. 도덕적 해이: 보험 있으면 입원 선호
2. 접근성: 보험 없으면 비용 부담으로 입원 기피
3. 의사 행동: 보험 환자에게 입원 권유 - 정책적 함의: 의료 이용의 형평성 vs 효율성
(d) Age × Insurance interaction의 의미:
- 보험 효과가 나이에 따라 다를 수 있음
- 예: 젊은 층은 보험 있어도 입원 기피 (일 때문에)
- 노년층은 보험 있으면 적극적 입원
- 모델: $\beta_3 + \beta_5 \times age$ (나이별 보험 효과)
1. 왜 일반 회귀분석이 안 되는가?
→ 확률은 0-1 사이여야 함, heteroskedasticity
2. LPM vs Probit/Logit 선택 기준은?
→ 단순함 vs 이론적 타당성
3. 계수 해석 방법을 아는가?
→ LPM은 직접, Probit/Logit은 확률 계산 필요
4. Marginal effect가 왜 중요한가?
→ 실제 정책 효과는 확률 변화로 측정
5. MLE의 기본 아이디어는?
→ 관찰된 데이터가 나올 가능성 최대화
이 모든 질문에 자신 있게 답할 수 있다면 준비 완료!
핵심 요약: Exam 2 대비
Binary Dependent Variables 완벽 정리
세 가지 모델 비교
| LPM: | $Pr(Y=1|X) = \beta_0 + \beta_1 X$ | 직접 해석 |
| Probit: | $Pr(Y=1|X) = \Phi(\beta_0 + \beta_1 X)$ | 표준정규 CDF |
| Logit: | $Pr(Y=1|X) = \frac{1}{1+e^{-(\beta_0+\beta_1X)}}$ | Odds ratio |
계산 암기 사항
• LPM: $\beta_1$ = percentage point 변화
• Probit/Logit: 특정 X에서 확률 계산 후 차이
• 표준정규분포표: $\Phi(0)=0.5$, $\Phi(1)=0.841$, $\Phi(-1)=0.159$
• Logit 계산: $F(z) = \frac{1}{1+e^{-z}} = \frac{e^z}{1+e^z}$
자주 나오는 실수
• Probit/Logit 계수를 직접 해석 (X)
• Percentage vs percentage points 혼동
• Pseudo-$R^2$를 일반 $R^2$처럼 해석
• MLE가 왜 필요한지 모름
시험 전략
• 계산 문제: 단계별로 명확히 표시
• 해석 문제: 실제 의미 설명 (단위 포함)
• 모델 선택: 장단점 비교 언급
• 시간 부족 시: LPM부터 완벽히
실전 응용 포인트
• 차별 연구: OVB 가능성 항상 언급
• 정책 평가: 실질적 크기 (magnitude) 중요
• 예측: 극단값에서 LPM 문제 지적
• 가설검정: z-test 사용 (not t-test)
✓ Binary Y일 때 E(Y|X) = Pr(Y=1|X) 이해
✓ LPM의 장단점과 해석 방법
✓ Probit에서 $\Phi$ 사용한 확률 계산
✓ Logit에서 odds ratio 해석
✓ MLE vs OLS 차이점
✓ 실제 데이터 적용 시 OVB 고려
✓ Marginal effect는 X값에 따라 다름 (Probit/Logit)