Собесов

Сценарий: instrumental variables — IV для causal inference

Статистика и теорверCausal inferenceСложнаяSenior

Условие

Хотим оценить эффект «членства в премиум-программе» на retention. Membership — endogenous (юзеры выбирают сами). Что делать?

Решение

Идея IV

Найти переменную Z (инструмент), которая:

  1. Relevance: влияет на membership (X).
  2. Exclusion: влияет на retention (Y) только через X.
  3. Independence: не коррелирует с unobserved confounders ε.

Тогда LATE (local average treatment effect) идентифицируется.

Пример инструмента

  • Membership определяется фичей, которую раздавали юзерам с email-доменом @gmail.com (но не @yahoo). Email-domain не влияет на retention напрямую → может быть IV.
  • Случайный промо-баннер 50% юзеров.
  • Региональный rollout (Z = регион).
  • Distance к ближайшей точке offline-сервиса.

2SLS (two-stage least squares)

Stage 1: X на Z и controls:

X̂ = α + γ·Z + δ·controls + u

Stage 2: Y на X̂ и controls:

Y = β_0 + β_1·X̂ + ζ·controls + ε

β_1 — causal эффект X на Y.

from linearmodels.iv import IV2SLS
 
model = IV2SLS(
    dependent=df['retention'],
    exog=df[['age', 'tenure']],          # controls
    endog=df['membership'],              # endogenous
    instruments=df['email_gmail']        # instrument
).fit()
print(model.summary)

Тесты валидности

1. Relevance — F-stat первой стадии:

F > 10  — strong instrument
F < 10  — weak instrument, бесполезен

2. Exclusion — assumption, не тестируется статистически. Аргументация теорией.

3. Overidentification (если IV больше одного) — Sargan/Hansen J test.

LATE vs ATE

IV даёт LATE — local average treatment effect, эффект на compliers (тех, кого инструмент сдвигает). Это не ATE для всей популяции.

Сompliers — это юзеры, у которых membership реагирует на email domain. Always-takers и never-takers исключены.

Когда IV неприменим

  • Нет валидного инструмента.
  • Слабый инструмент (F < 10) — bias может быть хуже OLS.
  • Exclusion нарушается (Z влияет на Y по другим каналам).
  • Heterogeneous effects делают LATE плохо интерпретируемым.

Подводные камни

  1. Weak IV: бьёт по точности и смещению хуже OLS. Всегда проверять F.
  2. Exclusion — недоказуемо, только аргументировать. Это и есть слабое место IV в research.
  3. LATE ≠ ATE. Если интересует «эффект membership на всех», IV ответит про subset.
  4. Many IVs увеличивают F, но also увеличивают bias (many weak instruments problem).
  5. IV в наблюдательных данных — это второй best после RCT. Если можно RCT — RCT.

Эталонный ответ

IV нужен relevant (F>10), exclusion-valid и independent инструмент. 2SLS: stage1 XZ+controls, stage2 YX̂+controls. Даёт LATE для compliers. Слабый IV хуже OLS. Exclusion — assumption, не тест.

Хочешь увидеть разбор?

Зарегистрируйся бесплатно — откроется развёрнутое решение этой задачи и ещё 4 на выбор.

Зарегистрироваться и увидеть разбор
Уже есть аккаунт? Войти