<b>OCR для текстовых капч: где ломается пайплайн и как не сливать распознавание</b>
OCR на текстовых капчах обычно проигрывает не из-за самой модели, а из-за входного сигнала. Если картинка сжата, пересвечена, с шумом или разными шрифтами, библиотека начинает путать символы, даже когда текст визуально читается без труда.
Рабочий пайплайн почти всегда одинаковый:
— привести изображение к одному масштабу и контрасту;
— убрать фон и мелкий шум;
— бинаризовать только после проверки, что символы не сливаются;
— резать строку по зонам, а не кормить OCR весь кадр, если капча длинная.
Дальше важен словарь ошибок. У OCR есть типовые замены: 0/O, 1/I/l, 5/S, 8/B. Если формат капчи фиксированный, постобработка через маску допустимых символов дает больше, чем попытка “обучить все заново”. Для коротких строк полезен простой beam search по вероятностям символов.
Снижаем косты на распознавание: сначала быстрый префильтр, потом OCR, затем повтор только для спорных кейсов. Это стабилизирует пайплайн и режет лишние вызовы к тяжелым движкам.
Если капча меняется редко, выигрывает не “сильнейшая” библиотека, а связка предобработки, ограниченного алфавита и аккуратной поствалидации.
Анти-капча стек
@anti_captcha_stack_ubt
<b>OCR для текстовых капч: где ломается пайплайн и как не сливать распознавание</b>
Этот пост опубликован в Telegram-канале Анти-капча стек. Подписаться можно по ссылке: @anti_captcha_stack_ubt.