A/B-тесты на собесе аналитика — почему это половина успеха
Если в компании зрелая аналитическая культура (Авито, Яндекс, Озон, Т-Банк, ВК, Wildberries) — A/B-секция на собесе аналитика будет с вероятностью 99%. И именно она чаще всего отделяет «middle» от «junior с опытом»: junior знает формулу, middle понимает, что с ней делать в неудобной реальности.
В этом гиде разберём:
- что такое A/B-тест и какие вопросы про базу обязательно спросят;
- MDE и расчёт размера выборки;
- CUPED и снижение дисперсии;
- peeking problem и почему его нельзя игнорировать;
- delta-method для ratio-метрик;
- multiple testing и поправки;
- switchback-эксперименты для маркетплейсов;
- network effects;
- частые подвохи и литература.
База: что должен знать любой кандидат
На собесе всегда начинают с базы. Если базу не сдадите — дальше не пойдёте.
1. Гипотезы H0 и H1
Должны уметь сформулировать нулевую и альтернативную гипотезу для любого эксперимента. Например, если вы тестируете новую кнопку:
- H0: средняя конверсия одинакова в группах ($p_A = p_B$);
- H1: средняя конверсия различается ($p_A \neq p_B$).
Подвох — двусторонняя или односторонняя гипотеза. На собесе скажут «двусторонняя по умолчанию», если иное не оговорено.
2. P-value
Что такое и что НЕ такое:
- p-value — вероятность увидеть наблюдаемые данные (или более экстремальные) при условии истинности H0.
- p-value НЕ есть вероятность того, что H0 верна.
Тренировка: Habr · Что такое p-value.
3. Ошибки первого и второго рода
- $\alpha$ — ошибка первого рода (false positive): отвергли H0, когда она верна.
- $\beta$ — ошибка второго рода (false negative): не отвергли H0, когда верна H1.
- $1 - \beta$ — мощность теста.
Тренировка: Habr · Type 1 vs Type 2 error.
4. Доверительный интервал
«95% CI для разности средних» — что это значит? Правильный ответ: если бы мы повторили эксперимент много раз, в 95% случаев получившийся CI накрыл бы истинное значение.
Тренировка: Habr · Интерпретация CI.
Размер выборки и MDE
MDE — минимальный детектируемый эффект
Это та разница, которую вы можете заметить с заданной мощностью и уровнем значимости. Формула для двух пропорций:
$$n \approx \frac{2 \sigma^2 (z_{\alpha/2} + z_\beta)^2}{\delta^2}$$
Где $\delta$ — это MDE.
Подвохи на собесе:
- Линейность не работает: уменьшение MDE в 2 раза не даёт выборку в 2 раза больше — нужна в 4 раза.
- Дисперсия пропорций: $\sigma^2 = p(1-p)$ для бернуллиевой переменной.
- Двусторонний vs односторонний тест меняет константу.
Тренировка: Habr · Формула размера выборки.
Как объяснять MDE продакту
Продакт всегда хочет «детектить 1%». Если такая чувствительность требует 10 млн пользователей, и трафика столько нет — нужно вместе договариваться. На собесе ценится умение объяснить эту коммуникацию: «MDE — это компромисс между чувствительностью и временем эксперимента».
CUPED: must-have для middle и senior
Что это
CUPED (Controlled-Experiment Using Pre-Experiment Data) — метод снижения дисперсии метрики с помощью предэкспериментальных данных как ковариаты. Идея простая: если у пользователя «исторически» большая выручка, она будет и в эксперименте большой — независимо от группы. Если эту часть вычесть, дисперсия группы уменьшится.
Формула:
$$Y_i^{adj} = Y_i - \theta(X_i - \bar{X})$$
Где $X$ — предэкспериментальная метрика, $\theta = \text{Cov}(Y, X)/\text{Var}(X)$.
Снижение дисперсии может составлять 30–60%, что эквивалентно ускорению эксперимента в 1.5–3 раза.
Что спросят на собесе
- Что такое CUPED и зачем он нужен.
- Как выбрать ковариату — должна быть скоррелирована с метрикой, но не должна быть «affected by treatment».
- Что будет, если ковариата не коррелирует — снижения дисперсии не получится.
- Что будет, если ковариата плохо подобрана и коррелирует с трудом — может стать хуже.
Тренировка: Habr · CUPED для снижения дисперсии.
Peeking problem
Что это
Peeking — это привычка «подглядывать» в эксперимент каждый день и останавливать, как только p-value < 0.05. Проблема: формальный фиксированный тест не учитывает многократные «остановки», и реальная вероятность ложного срабатывания может вырасти с 5% до 20–30%.
Что делать вместо
- Зафиксировать размер выборки заранее и не подглядывать.
- Использовать sequential testing (например, Always Valid Inference).
- Использовать Bayesian-подход — он не страдает от пикинга так сильно.
Тренировка: Habr · Peeking problem.
Delta-method для ratio-метрик
Что это
Если вы тестируете не пользовательскую метрику (где «единица» — пользователь), а ratio-метрику (CTR = clicks/views), то стандартный t-тест неприменим: переменная не нормальна, к тому же есть зависимость между числителем и знаменателем.
Delta-method даёт правильную оценку дисперсии для ratio:
$$\text{Var}\left(\frac{X}{Y}\right) \approx \frac{1}{\bar{Y}^2} \text{Var}(X) + \frac{\bar{X}^2}{\bar{Y}^4} \text{Var}(Y) - 2 \frac{\bar{X}}{\bar{Y}^3} \text{Cov}(X, Y)$$
Это must-know для middle, и без этого многие компании просто отказывают.
Тренировка: Habr · Delta-method для ratio, InterviewQuery · Дисперсия ratio.
Multiple testing и поправки
Что это
Если в одном эксперименте вы тестируете 20 метрик, и берёте альфу 5% — ожидаемое число ложных открытий = 1. Это и есть проблема множественного тестирования.
Решения:
- Bonferroni — самый консервативный. $\alpha' = \alpha / m$.
- Benjamini-Hochberg — контролирует FDR, менее консервативный.
- Holm — поэтапный, между Bonferroni и BH.
На собесе чаще всего спрашивают про Bonferroni и BH. Должны уметь объяснить разницу между FWER и FDR.
A/A-тест и SRM
A/A-тест
Это эксперимент, где обе группы получают одно и то же. Зачем нужен:
- проверить, что разбиение работает корректно;
- оценить «исторический» уровень шума;
- найти ошибки в системе.
Если A/A показывает значимую разницу — система сломана. Тренировка: Habr · Зачем A/A-тест.
SRM (Sample Ratio Mismatch)
Вы делите трафик 50/50, но на выходе получили 49/51. Случайно? Считается через chi-square test: если p-value < 0.001, скорее всего дело не в случайности, а в баге.
Тренировка: Habr · SRM detection.
Switchback и network effects
Switchback
Это эксперимент для случаев, когда нельзя разбить пользователей на группы (например, surge pricing в Такси). Вместо этого вы переключаете весь продукт «то A, то B» по интервалам времени.
Подходит для маркетплейсов, такси, доставки, где есть сильные network effects.
Network effects
Если действие одного пользователя влияет на другого (соцсети, маркетплейсы), стандартный A/B-тест даёт смещённую оценку. Решения:
- кластерное разбиение (по группам друзей);
- switchback;
- ego-network experiments.
Прочие важные темы
Bootstrap для нестандартных метрик
Если метрика не нормальна и t-тест не подходит, bootstrap — спасение. Тренировка: Habr · Bootstrap для разности средних.
Mann-Whitney когда использовать
Если распределения не нормальны, Mann-Whitney U-test может быть мощнее. Но: тестирует медианы, а не средние. Тренировка: Habr · Mann-Whitney когда.
Novelty effect
В первые дни эксперимента пользователи реагируют на «новое», а не на «полезное». Через 1–2 недели это сходит на нет. На собесе важно знать, что нельзя останавливать эксперимент в первые дни.
Тренировка: InterviewQuery · Novelty effect.
Frequentist vs Bayesian
Frequentist — стандартный t-test, p-value. Bayesian — апостериорное распределение разности. Bayesian-подход меньше страдает от пикинга, но требует приоров.
Тренировка: Skytec · Bayesian vs Frequentist.
Кейсы на собесе
Тип 1: дизайн эксперимента
«Мы хотим протестировать редизайн кнопки в чекауте. Спроектируйте эксперимент.»
Структура ответа:
- Цель и метрика успеха.
- Гипотеза (H0 и H1).
- Метрики (primary, guardrails).
- Размер выборки и MDE.
- Длительность и стопы.
- План анализа.
Тренировка: A/B-тест: дизайн чекаута, Karpov · Чекаут редизайн, Movavi · Pricing, Miro · CTA дизайн.
Тип 2: анализ результата
«Тест показал лифт 3%, p-value = 0.04. Что делаем?»
Подвох — p-value < 0.05 не значит «катим». Нужно проверить:
- guardrails не упали;
- SRM в норме;
- эффект устойчив (стабилен по дням);
- эффект имеет смысл бизнес-логически;
- размер выборки набрался по плану.
Тренировка: A/B-тест: значим, но без лифта, SemRush · Homepage, VK-OK Revenue.
Тип 3: конверсионный лифт
«Конверсия в группе A — 4.5%, в группе B — 4.7%. Значимо или нет?» Тренировка: InterviewQuery · A/B-тест конверсионного лифта.
Чек-лист подготовки на 3 недели
Неделя 1: база
- Чёткое понимание H0/H1, p-value, alpha, beta.
- Расчёт размера выборки для пропорций и средних.
- 5 задач: размер выборки, p-value, Type 1/2, CI, A/A.
Неделя 2: продвинутые методы
- CUPED, delta-method, peeking, bootstrap.
- 5 задач: CUPED, delta-method, peeking, bootstrap, Mann-Whitney.
Неделя 3: кейсы
- Дизайн 3 экспериментов разной тематики.
- Анализ 3 «реальных» результатов с подвохами.
- 5 задач: SRM, Novelty, Дизайн чекаута, Pricing, Без лифта.
Книги и материалы
- Ron Kohavi, Diane Tang, Ya Xu — «Trustworthy Online Controlled Experiments». Единственная книга, которую нужно прочесть от и до. После неё — всё остальное «по диагонали».
- Курс «A/B-тесты» от Karpov.Courses или альтернатива на Stepik.
- Блоги Airbnb, Spotify, Netflix про эксперименты — практический контекст.
- «Practical Statistics for Data Scientists» O'Reilly — для матчасти.
Типичные ошибки на A/B-собесе
- Путают p-value с вероятностью H0. Это #1 ошибка.
- Считают, что лифт < MDE значит «нет эффекта». Это значит «не доказали».
- Не знают delta-method для ratio-метрик. Без этого middle не получите.
- Останавливают эксперимент в первый «значимый» день. Peeking — частая ошибка.
- Не проверяют SRM. В половине компаний это первая проверка после запуска.
Связанные задачи каталога
Соберите блок из 15–20 задач:
- База: p-value, Type 1/2, CI, размер выборки, A/A.
- Методы: CUPED, delta-method, peeking, bootstrap, Mann-Whitney, SRM, Bayesian, Novelty, Ratio variance.
- Кейсы: Дизайн чекаута, Karpov чекаут, Pricing Movavi, Miro CTA, Без лифта, Конверсионный лифт, SemRush, VK-OK Revenue.
Итого
A/B-тесты — это секция, где можно очень быстро вырасти от junior до middle, если уделить ей 3 недели. Главное — не учить формулы, а понимать, что они значат и в каких случаях ломаются. Если на любой вопрос вы можете ответить «вот в чём подвох, вот что я бы проверил, вот к какому методу прибегнул бы», — A/B-секция собеса вам не страшна.