<b>OCR больше не универсальный вход. Архивные PDF начали резать по типам страниц до индексации</b>
На arXiv вышел разбор системы классификации исторических документов: модель делит scanned-страницы на категории до обработки. В выборке — рукописный и печатный текст, карты, фото, таблицы, формы и графика. Цель — отправлять каждый тип контента в свой пайплайн: OCR отдельно, image analysis отдельно.
Для AI Search и retrieval-augmented generation (RAG, генерация с поиском по базе) это важнее, чем выглядит. Если таблицы, формы и plain-text страницы индексируются одинаково, retrieval начинает тянуть шум вместо нужного фрагмента. Особенно в corpora с PDF-архивами и mixed-layout документами.
Практический вывод для контент-команд:
— проверять ingestion PDF, а не только HTML-страницы;
— отделять OCR-слой от extraction таблиц и графики;
— смотреть, какие типы страниц реально попадают в vector index, а какие теряются после preprocessing.
Похоже, следующий слой GEO будет не про текст статьи, а про качество document pipeline целиком.
AI Search Desk — LLM-SEO и GEO
@ai_search_desk
<b>OCR больше не универсальный вход. Архивные PDF начали резать по типам страниц до индексации</b>
Источники:
Этот пост опубликован в Telegram-канале AI Search Desk — LLM-SEO и GEO. Подписаться можно по ссылке: @ai_search_desk.