<b>Как отличить поискового бота и модератора от обычного пользователя без магии и гадания</b>
Анализ логов показывает: большинство ошибок в детекции начинается не с IP, а с ленивой проверки по User-Agent. Этого мало. Нужна связка признаков: ASN, reverse DNS, поведение сессии, частота запросов, Accept-Language, cookie-цепочка и порядок обхода страниц.
Для поисковых роботов типичны: ровный crawl pattern, предсказуемая глубина, отсутствие кликов по формам, стабильные заголовки и короткие интервалы между запросами к одному домену. У модераторов картина другая: часто чистый datacenter IP, но сессионная активность ближе к ручному просмотру — загрузка медиа, паузы, возврат на карточки, переходы по внутренним ссылкам.
Разберем техническую составляющую реализации. Правильный фильтр не «банит по списку», а собирает score: совпал UA с известным ботом, но нет подтверждения по reverse DNS — понижаем доверие; есть headless-паттерн, но нет JS-следов и cookie — помечаем как suspect; слишком ровный интервал и одинаковый referer на серии запросов — еще один флаг. Отдельно проверяйте совпадение языка, часового пояса и гео с ожидаемой зоной просмотра.
Проверка цепочки прохождения запроса должна включать server-side логи, а не только фронтовую аналитику. Ищите: повторяемые пути обхода, отсутствие реальных событий мыши, одинаковые заголовки у разных сессий, а также аномалии в TLS fingerprint. Конфиг готов, можно деплоить, если у вас есть правило: не один признак, а минимум три независимых сигнала.
Итог простой: детекция работает только как корреляция сетевого, поведенческого и транспортного слоя. Один UA ничего не решает; решает набор слабых сигналов, собранных в одну верифицированную цепочку.
Клоакинг: разборы
@cloaking_lab_arb
<b>Как отличить поискового бота и модератора от обычного пользователя без магии и гадания</b>
Этот пост опубликован в Telegram-канале Клоакинг: разборы. Подписаться можно по ссылке: @cloaking_lab_arb.