Условие
Хотим повысить конверсию на странице https://www.open.ru/credit_cards/120days. Опишите процесс A/B-теста: подготовку, запуск, итоги. Приведите примеры гипотез.
Решение
Шаг 0. Что измеряем
Конверсия = unique_clicks_apply / unique_visitors. Дальше по воронке: подача → одобрение → выпуск → активация → первая трата (PSF). Оптимизировать страницу логично по верху воронки (CR в подачу), но проверять — что не упала глубокая воронка.
Шаг 1. Гипотезы
Качественные гипотезы:
- «Hero» с конкретным CTA «Оформить за 5 минут» вместо «Узнать больше» → +CR.
- Социальное доказательство в hero: «1.5 млн карт уже выпущено».
- Калькулятор грейс-периода в первом экране → +CR (понятно, какая выгода).
- Сокращение анкеты (с 12 до 6 полей в первом шаге) → +CR подачи.
- Sticky CTA на мобильном → +CR.
Каждую гипотезу формулируем: «Если изменить X, то метрика Y вырастет на ΔY ≥ Δ_min, потому что Z».
Не запускаем тест без явного MDE (минимально детектируемый эффект) — иначе непонятно, сколько ждать.
Шаг 2. Дизайн
- Целевая метрика: unique CR в подачу заявки.
- Контр-метрики: CR в одобрение / в активацию (защита от перетекания низкокачественных заявок), bounce rate, средняя сумма лимита.
- Юнит сплита:
user_idесли авторизован, иначеcookie_id/client_idиз стороннего трекера. Не сессия (одна сессия не должна жить в обоих вариантах). - Доли: 50/50 (пока нет страха про деньги).
- Сегментация: мобайл vs десктоп — почти всегда разные эффекты, дизайнить отдельно.
- MDE: допустим, базовый CR = 4%, хотим различить 4% vs 4.4% (lift 10%) при α=0.05, β=0.2.
- n ≈ 16 000 на группу — формула пропорций:
n ≈ 2 * (1.96+0.84)² * p(1-p) / (Δp)². - При DAU страницы = 5000 — 7 дней.
- n ≈ 16 000 на группу — формула пропорций:
- Обязательно полные недели, чтобы не было day-of-week эффекта.
Шаг 3. Запуск
- Фиксируем дизайн (метрика, MDE, тип теста, продолжительность) до старта — pre-registration.
- A/A-тест до релиза 3–7 дней — проверить, что сплит честный, нет перекоса.
- QA вариантов на dev-средах + smoke-тест после раскатки.
- Мониторинг бизнес-метрик в реальном времени — если падение по контр-метрикам, остановить.
Шаг 4. Итоги
- Считаем z-test для пропорций (или Welch для непрерывных).
- 95% доверительный интервал для лифта.
- Стат-значимый положительный результат + не пострадавшие контр-метрики → раскатка на 100%.
- Стат-значимый отрицательный → откат.
- Не значим — не вывод «нет эффекта», а «не смогли отличить от 0 в этой выборке». Решение — продлить или закрыть.
Шаг 5. После раскатки
- Holdout 5–10% оставить на месяц для подтверждения долгосрочного эффекта.
- Проверить downstream-метрики (PSF, NPS).
- Postmortem: что сработало, что нет, что протестировать дальше.
Подводные камни
- Подсматривание. Каждый день смотреть p-value и останавливать «как только значимо» = инфляция alpha. Решение — заранее зафиксировать длительность или sequential test.
- Multiple testing. Если в одном эксперименте 5 метрик — поправка Бонферрони / Холма.
- SRM (sample ratio mismatch). Проверка
chi-squaredна распределение по группам — частая причина невалидных результатов. - Эффект новизны. Первая неделя — клик «потому что новое», потом откат. Защищаемся длительностью.
- Сегментная негативность. Среднее +5%, но на iOS −15%. Обязательная сегментная проверка.
- Hawthorne / Goodhart. Метрика поднялась, потому что юзеры проспамили заявки и они отвалились в одобрении.
Эталонный ответ
Pre-register (метрика, MDE, длительность) → A/A-проверка → запуск → мониторинг контр-метрик → стат-проверка → раскатка с holdout. Гипотезы формулируем как «Изменение X → метрика Y растёт на ΔY ≥ MDE, потому что Z». Длительность — от целых недель и достижения нужной мощности.