Условие

Что лучше показывать в отчёте по A/B-тесту: p-value или доверительный интервал? Чем они отличаются и как их интерпретировать?

Решение

p-value

Вероятность получить наблюдаемый (или более экстремальный) результат при условии H0 (нет эффекта). Сам по себе p-value не говорит:

насколько большой эффект,
вероятность того, что H1 верна,
является ли результат «реальным».

p < 0.05 ≠ «есть эффект». Это «при отсутствии эффекта мы наблюдали бы такие данные с вероятностью < 5%». Не путать с обратным.

Доверительный интервал (CI)

Интервал значений, в который при многократном повторении эксперимента истинный параметр попадал бы в (1 - α) доли случаев. На 95%-CI: «такой интервал содержит истинное значение в 95% повторных экспериментов».

Что даёт CI, чего не даёт p-value:

Размер эффекта в естественных единицах (например, «+50 ± 30 рублей выручки на пользователя»).
Знак эффекта — положительный/отрицательный.
Точность оценки — широкий CI = низкая точность.
Практическую значимость — попадает ли интервал целиком в зону «много», «мало», «практически 0».

Как лучше показывать стейкхолдеру

CI строго лучше для отчёта:

Менеджеру понятнее: «эффект между +2% и +5%» — это конкретно.
Сразу виден размер эффекта и неопределённость.
Не порождает «cargo cult» «p < 0.05 = выкатим».

p-value — служебная вещь для аналитика. На дашборде должны быть:

Эстимейт эффекта.
95%-CI.
Размер выборки и MDE.
(Опционально) p-value мелким шрифтом.

Связь

CI и p-value математически эквивалентны для двусторонних z/t-тестов: p < α ⇔ 0 ∉ (1-α)-CI. Но информации в CI больше.

Альтернативы

Bayesian подход: распределение апостериорной вероятности эффекта, можно выводить «вероятность того, что новый вариант лучше старого больше чем на X%».
Sequential testing (mSPRT, AGL Optimizely) — для частого подсматривания.

Подводные камни

Считать p > 0.05 доказательством H0. Это «недостаточно данных», а не «нет эффекта».
Считать ширину CI «вероятностью». CI — это процедура, а не вероятность для конкретного интервала. Bayesian credible interval — другое.
Не указывать единицы. «+0.05» — в чём? Абсолют, относительный, в долях процента?
Использовать CI для решения «выкатить ли». Решение — соотношение CI с MDE, а не «не пересекает 0».

Эталонный ответ

В отчёте — CI и оценка эффекта, p-value как technical detail. CI даёт размер, знак и точность, p-value — только бинарное «значимо/нет», и это слишком грубая информация для решения.

Доверительный интервал vs p-value — что показывать стейкхолдеру