Анти-капча стек
Анти-капча стек
@anti_captcha_stack_ubt

<b>OCR для текстовых капч: где ломается пайплайн и как не сливать распознавание</b>

<b>OCR для текстовых капч: где ломается пайплайн и как не сливать распознавание</b>

OCR на текстовых капчах обычно проигрывает не из-за самой модели, а из-за входного сигнала. Если картинка сжата, пересвечена, с шумом или разными шрифтами, библиотека начинает путать символы, даже когда текст визуально читается без труда.

Рабочий пайплайн почти всегда одинаковый:
— привести изображение к одному масштабу и контрасту;
— убрать фон и мелкий шум;
— бинаризовать только после проверки, что символы не сливаются;
— резать строку по зонам, а не кормить OCR весь кадр, если капча длинная.

Дальше важен словарь ошибок. У OCR есть типовые замены: 0/O, 1/I/l, 5/S, 8/B. Если формат капчи фиксированный, постобработка через маску допустимых символов дает больше, чем попытка “обучить все заново”. Для коротких строк полезен простой beam search по вероятностям символов.

Снижаем косты на распознавание: сначала быстрый префильтр, потом OCR, затем повтор только для спорных кейсов. Это стабилизирует пайплайн и режет лишние вызовы к тяжелым движкам.

Если капча меняется редко, выигрывает не “сильнейшая” библиотека, а связка предобработки, ограниченного алфавита и аккуратной поствалидации.
Этот пост опубликован в Telegram-канале Анти-капча стек. Подписаться можно по ссылке: @anti_captcha_stack_ubt.
tech

Свежие посты в категории «Tech Infrastructure»

Все каналы категории →

start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $1000 за пакет по сети.