<b>Тайский без параллельного корпуса: исследователи обучают генерацию на source-only данных</b>

30 May 2026, 07:53 Оригинал в Telegram →

<b>Тайский без параллельного корпуса: исследователи обучают генерацию на source-only данных</b>

В работе от мая 2026 представлен SG-SRL (Source-Grounded Semantic Reinforcement Learning) — подход для генерации на low-resource языках. Вместо эталонных переводов система использует reinforcement learning на данных исходного языка и кросс-языковую модель семантической оценки.

На эксперименте Chinese→Thai авторы сообщили рост semantic grounding и factual coverage относительно cold-start SFT. Отдельно показано, что в low-resource сценариях encoder-based reward может заменить LLM-реранкер. При этом появился знакомый для MT-пайплайнов эффект: reward hacking через избыточную многословность. Его исправляли небольшим параллельным корпусом на этапе recovery.

Для команд, работающих с Phrase TMS, Lokalise и scarce locales вроде тайского или тибетского, это сигнал пересмотреть зависимость от больших объёмов параллельных данных. Завтра уже можно проверить, какие source-only корпуса остаются неиспользованными в текущем MT workflow и где семантическая оценка способна дополнить классические translation memory и term base.

Если подход подтвердится на продакшен-задачах, стоимость запуска новых локалей может заметно измениться.

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале Localization Tech. Подписаться можно по ссылке: @localization_tech_desk.

Готовы запустить рекламу через сеть public.tg?