Условие
Хотим оценить эффект «членства в премиум-программе» на retention. Membership — endogenous (юзеры выбирают сами). Что делать?
Решение
Идея IV
Найти переменную Z (инструмент), которая:
- Relevance: влияет на membership (X).
- Exclusion: влияет на retention (Y) только через X.
- Independence: не коррелирует с unobserved confounders ε.
Тогда LATE (local average treatment effect) идентифицируется.
Пример инструмента
- Membership определяется фичей, которую раздавали юзерам с email-доменом @gmail.com (но не @yahoo). Email-domain не влияет на retention напрямую → может быть IV.
- Случайный промо-баннер 50% юзеров.
- Региональный rollout (Z = регион).
- Distance к ближайшей точке offline-сервиса.
2SLS (two-stage least squares)
Stage 1: X на Z и controls:
X̂ = α + γ·Z + δ·controls + u
Stage 2: Y на X̂ и controls:
Y = β_0 + β_1·X̂ + ζ·controls + ε
β_1 — causal эффект X на Y.
from linearmodels.iv import IV2SLS
model = IV2SLS(
dependent=df['retention'],
exog=df[['age', 'tenure']], # controls
endog=df['membership'], # endogenous
instruments=df['email_gmail'] # instrument
).fit()
print(model.summary)Тесты валидности
1. Relevance — F-stat первой стадии:
F > 10 — strong instrument
F < 10 — weak instrument, бесполезен
2. Exclusion — assumption, не тестируется статистически. Аргументация теорией.
3. Overidentification (если IV больше одного) — Sargan/Hansen J test.
LATE vs ATE
IV даёт LATE — local average treatment effect, эффект на compliers (тех, кого инструмент сдвигает). Это не ATE для всей популяции.
Сompliers — это юзеры, у которых membership реагирует на email domain. Always-takers и never-takers исключены.
Когда IV неприменим
- Нет валидного инструмента.
- Слабый инструмент (F < 10) — bias может быть хуже OLS.
- Exclusion нарушается (Z влияет на Y по другим каналам).
- Heterogeneous effects делают LATE плохо интерпретируемым.
Подводные камни
- Weak IV: бьёт по точности и смещению хуже OLS. Всегда проверять F.
- Exclusion — недоказуемо, только аргументировать. Это и есть слабое место IV в research.
- LATE ≠ ATE. Если интересует «эффект membership на всех», IV ответит про subset.
- Many IVs увеличивают F, но also увеличивают bias (many weak instruments problem).
- IV в наблюдательных данных — это второй best после RCT. Если можно RCT — RCT.
Эталонный ответ
IV нужен relevant (F>10), exclusion-valid и independent инструмент. 2SLS: stage1 XZ+controls, stage2 YX̂+controls. Даёт LATE для compliers. Слабый IV хуже OLS. Exclusion — assumption, не тест.