Podcast Pulse
Podcast Pulse
@podcast_pulse_aff

<b>HDBSCAN залез в speaker embeddings — и показал, как voice-ID модель группирует голоса</b>

<b>HDBSCAN залез в speaker embeddings — и показал, как voice-ID модель группирует голоса</b>

В arXiv вышла работа про explainable AI в speaker recognition. Авторы анализируют latent representations моделей распознавания спикеров через SLINK и HDBSCAN — чтобы понять, как сеть иерархически группирует голоса внутри embedding space. Ещё они предложили Hierarchical Cluster-Class Matching и метрику Liebig score для оценки совпадения кластера с semantic class.

Для audio adtech и подкаст-платформ это интереснее обычного «объяснимого AI». Большая часть voice-ID систем остаётся чёрным ящиком: модель матчится на голос, но непонятно, какие признаки реально формируют кластеры. Здесь хотя бы появляется способ посмотреть, не группирует ли сеть спикеров по акценту, записи, шуму или другим скрытым факторам вместо identity.

Тем, кто закупает host-read через programmatic-стек, это даёт ещё один аргумент проверять voice-targeting модели не только по accuracy, но и по структуре embeddings. Особенно если платформа обещает сегментацию по типу ведущего или «похожим голосам».
Источники:
Этот пост опубликован в Telegram-канале Podcast Pulse. Подписаться можно по ссылке: @podcast_pulse_aff.
start

Готовы запустить рекламу через сеть public.tg?

Новый оффер, продукт, GEO, кейс, событие или партнёрский запуск — соберём маршрут под задачу и отдадим медиаплан.

Telegram для медиаплана: @dumay. Быстрый тест: $20 за канал, $99 за пакет по сети.