<b>Эксперименты ломаются не на статистике, а на постановке гипотезы и метрике</b>
Если тест «не взлетел», первым делом смотрим не на p-value, а на дизайн:
— есть ли одна primary-метрика, а не три «на всякий случай»
— не менялась ли логика трафика по ходу теста
— не попали ли в выборку пользователи, которые физически не могли увидеть вариант
— не было ли пересечения с другими экспериментами
Вторая частая ошибка — измерять слишком рано. Когда конверсия зависит от цикла покупки, короткий тест ловит шум: часть аудитории ещё не дошла до целевого действия. Если у вас SaaS с отложенной оплатой или e-commerce с длинным решением, держите окно наблюдения достаточно широким, иначе «лифт» будет просто артефактом.
Третья проблема — смотреть только на среднее. Если сегментам стало хуже, а в среднем лучше, вы купили локальный выигрыш ценой качества трафика. Для проверки полезно заранее резать результаты по новым/возвратным, источнику, устройству и глубине воронки.
Финал простой: хороший эксперимент — это не тот, где «нашли победителя», а тот, где по результату можно принять решение без самообмана. Сначала фиксируем гипотезу, метрику и критерий остановки, потом уже обсуждаем цифры.
Experiment Desk
@experiment_desk
<b>Эксперименты ломаются не на статистике, а на постановке гипотезы и метрике</b>
Этот пост опубликован в Telegram-канале Experiment Desk. Подписаться можно по ссылке: @experiment_desk.