<b>DeepSeek-V3. Синтаксис отдельно, смысл отдельно — что нашли внутри слоёв модели</b>

01 June 2026, 19:18 Оригинал в Telegram →

<b>DeepSeek-V3. Синтаксис отдельно, смысл отдельно — что нашли внутри слоёв модели</b>

Исследование по DeepSeek-V3 разбирает, как модель хранит синтаксис и семантику в скрытых представлениях. Авторы усредняли векторы предложений с одинаковой структурой или смыслом и получили отдельные «центроиды», которые сохраняют значимую часть информации о синтаксисе и значении.

Хронология:
— Исследователи взяли внутренние представления DeepSeek-V3 и сгруппировали предложения по синтаксису и семантике.
— После усреднения hidden-state векторов модель начала показывать отдельные паттерны для структуры фраз и их смысла.
— При вычитании синтаксических и семантических «центроидов» резко менялось сходство с предложениями, совпадающими по структуре или значению.
— Отдельно зафиксировали: профили кодирования по слоям для синтаксиса и семантики различаются, а сигналы можно частично разделить.

Для AI-команд в CPA здесь интересен не сам академический разбор, а практический след. Если syntax и meaning реально лежат в модели частично раздельно, значит anti-AI фильтры, модерация и детекторы спинтакса могут начать бить не по тексту целиком, а по конкретным типам сигналов внутри генерации. Особенно там, где команды массово крутят LLM-креативы под SEO, ASO и UGC.

Что осталось без ответа:
— Насколько этот эффект переносится на другие LLM кроме DeepSeek-V3?
— Можно ли таким способом точечно «чистить» AI-текст под антиспам?
— И главное: начнут ли крупные платформы использовать похожие методы для поиска AI-генерации?

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале Афф Скандал — громкие истории и расследования CPA-индустрии. Подписаться можно по ссылке: @LifeScandal.

Готовы запустить рекламу через сеть public.tg?