<b>Тайский без параллельного корпуса: исследователи обучают генерацию на source-only данных</b>
В работе от мая 2026 представлен SG-SRL (Source-Grounded Semantic Reinforcement Learning) — подход для генерации на low-resource языках. Вместо эталонных переводов система использует reinforcement learning на данных исходного языка и кросс-языковую модель семантической оценки.
На эксперименте Chinese→Thai авторы сообщили рост semantic grounding и factual coverage относительно cold-start SFT. Отдельно показано, что в low-resource сценариях encoder-based reward может заменить LLM-реранкер. При этом появился знакомый для MT-пайплайнов эффект: reward hacking через избыточную многословность. Его исправляли небольшим параллельным корпусом на этапе recovery.
Для команд, работающих с Phrase TMS, Lokalise и scarce locales вроде тайского или тибетского, это сигнал пересмотреть зависимость от больших объёмов параллельных данных. Завтра уже можно проверить, какие source-only корпуса остаются неиспользованными в текущем MT workflow и где семантическая оценка способна дополнить классические translation memory и term base.
Если подход подтвердится на продакшен-задачах, стоимость запуска новых локалей может заметно измениться.
Localization Tech
@localization_tech_desk
<b>Тайский без параллельного корпуса: исследователи обучают генерацию на source-only данных</b>
Источники:
Этот пост опубликован в Telegram-канале Localization Tech. Подписаться можно по ссылке: @localization_tech_desk.