Localization Tech
Localization Tech
@localization_tech_desk

<b>Тайский без параллельного корпуса: исследователи обучают генерацию на source-only данных</b>

<b>Тайский без параллельного корпуса: исследователи обучают генерацию на source-only данных</b>

В работе от мая 2026 представлен SG-SRL (Source-Grounded Semantic Reinforcement Learning) — подход для генерации на low-resource языках. Вместо эталонных переводов система использует reinforcement learning на данных исходного языка и кросс-языковую модель семантической оценки.

На эксперименте Chinese→Thai авторы сообщили рост semantic grounding и factual coverage относительно cold-start SFT. Отдельно показано, что в low-resource сценариях encoder-based reward может заменить LLM-реранкер. При этом появился знакомый для MT-пайплайнов эффект: reward hacking через избыточную многословность. Его исправляли небольшим параллельным корпусом на этапе recovery.

Для команд, работающих с Phrase TMS, Lokalise и scarce locales вроде тайского или тибетского, это сигнал пересмотреть зависимость от больших объёмов параллельных данных. Завтра уже можно проверить, какие source-only корпуса остаются неиспользованными в текущем MT workflow и где семантическая оценка способна дополнить классические translation memory и term base.

Если подход подтвердится на продакшен-задачах, стоимость запуска новых локалей может заметно измениться.
Источники:
Этот пост опубликован в Telegram-канале Localization Tech. Подписаться можно по ссылке: @localization_tech_desk.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $99 за пакет по сети.