Условие

Хотим повысить конверсию на странице https://www.open.ru/credit_cards/120days. Опишите процесс A/B-теста: подготовку, запуск, итоги. Приведите примеры гипотез.

Решение

Шаг 0. Что измеряем

Конверсия = unique_clicks_apply / unique_visitors. Дальше по воронке: подача → одобрение → выпуск → активация → первая трата (PSF). Оптимизировать страницу логично по верху воронки (CR в подачу), но проверять — что не упала глубокая воронка.

Шаг 1. Гипотезы

Качественные гипотезы:

«Hero» с конкретным CTA «Оформить за 5 минут» вместо «Узнать больше» → +CR.
Социальное доказательство в hero: «1.5 млн карт уже выпущено».
Калькулятор грейс-периода в первом экране → +CR (понятно, какая выгода).
Сокращение анкеты (с 12 до 6 полей в первом шаге) → +CR подачи.
Sticky CTA на мобильном → +CR.

Каждую гипотезу формулируем: «Если изменить X, то метрика Y вырастет на ΔY ≥ Δ_min, потому что Z».

Не запускаем тест без явного MDE (минимально детектируемый эффект) — иначе непонятно, сколько ждать.

Шаг 2. Дизайн

Целевая метрика: unique CR в подачу заявки.
Контр-метрики: CR в одобрение / в активацию (защита от перетекания низкокачественных заявок), bounce rate, средняя сумма лимита.
Юнит сплита: user_id если авторизован, иначе cookie_id / client_id из стороннего трекера. Не сессия (одна сессия не должна жить в обоих вариантах).
Доли: 50/50 (пока нет страха про деньги).
Сегментация: мобайл vs десктоп — почти всегда разные эффекты, дизайнить отдельно.
MDE: допустим, базовый CR = 4%, хотим различить 4% vs 4.4% (lift 10%) при α=0.05, β=0.2.
- n ≈ 16 000 на группу — формула пропорций: n ≈ 2 * (1.96+0.84)² * p(1-p) / (Δp)².
- При DAU страницы = 5000 — 7 дней.
Обязательно полные недели, чтобы не было day-of-week эффекта.

Шаг 3. Запуск

Фиксируем дизайн (метрика, MDE, тип теста, продолжительность) до старта — pre-registration.
A/A-тест до релиза 3–7 дней — проверить, что сплит честный, нет перекоса.
QA вариантов на dev-средах + smoke-тест после раскатки.
Мониторинг бизнес-метрик в реальном времени — если падение по контр-метрикам, остановить.

Шаг 4. Итоги

Считаем z-test для пропорций (или Welch для непрерывных).
95% доверительный интервал для лифта.
Стат-значимый положительный результат + не пострадавшие контр-метрики → раскатка на 100%.
Стат-значимый отрицательный → откат.
Не значим — не вывод «нет эффекта», а «не смогли отличить от 0 в этой выборке». Решение — продлить или закрыть.

Шаг 5. После раскатки

Holdout 5–10% оставить на месяц для подтверждения долгосрочного эффекта.
Проверить downstream-метрики (PSF, NPS).
Postmortem: что сработало, что нет, что протестировать дальше.

Подводные камни

Подсматривание. Каждый день смотреть p-value и останавливать «как только значимо» = инфляция alpha. Решение — заранее зафиксировать длительность или sequential test.
Multiple testing. Если в одном эксперименте 5 метрик — поправка Бонферрони / Холма.
SRM (sample ratio mismatch). Проверка chi-squared на распределение по группам — частая причина невалидных результатов.
Эффект новизны. Первая неделя — клик «потому что новое», потом откат. Защищаемся длительностью.
Сегментная негативность. Среднее +5%, но на iOS −15%. Обязательная сегментная проверка.
Hawthorne / Goodhart. Метрика поднялась, потому что юзеры проспамили заявки и они отвалились в одобрении.

Эталонный ответ

Pre-register (метрика, MDE, длительность) → A/A-проверка → запуск → мониторинг контр-метрик → стат-проверка → раскатка с holdout. Гипотезы формулируем как «Изменение X → метрика Y растёт на ΔY ≥ MDE, потому что Z». Длительность — от целых недель и достижения нужной мощности.

Открытие — A/B-тест страницы кредитной карты «120 дней»