<b>Статзначимость A/B-теста — это не магия, а фильтр от ложных побед</b>
Если коротко: значимость отвечает на вопрос, мог ли эффект появиться случайно. Не «вариант лучше», а «данных уже достаточно, чтобы не списывать разницу на шум».
Базовая логика без математики:
— есть гипотеза: меняем один элемент;
— собираем трафик на A и B;
— сравниваем CR;
— если разница слишком велика для текущего объёма, тест считается значимым.
Что важно не перепутать:
— маленькая разница на слабом трафике почти всегда шум;
— большая разница на крошечной выборке тоже может быть случайностью;
— значимость не показывает размер эффекта, только уверенность, что он не нулевой.
На практике смотрят не на «B выше A», а на три вещи:
— размер выборки;
— длительность теста;
— p-value или Bayesian probability.
Если p-value выше 0.05, это не победа и не провал — это «недостаточно данных». Если ниже 0.05, результат уже можно принимать, но всё равно смотрят на effect size: +0.3% CR при миллионе визитов и +3% CR при сотне лидов — это совсем разный бизнес-смысл.
Главная ошибка — останавливать тест, когда график «красивый». Кривые в начале почти всегда врут. Нормальный процесс: заранее задать минимальный эффект, собрать нужный объём, дождаться полной картины.
Если нужна одна формула в голове, то такая: <code>эффект + объём трафика + время = доверие к результату</code>. Без любого из этих трёх A/B-тест превращается в гадание.
CRO Lab — конверсия лендингов
@cro_lab
<b>Статзначимость A/B-теста — это не магия, а фильтр от ложных побед</b>
Этот пост опубликован в Telegram-канале CRO Lab — конверсия лендингов. Подписаться можно по ссылке: @cro_lab.