<b>HDBSCAN залез в speaker embeddings — и показал, как voice-ID модель группирует голоса</b>

30 May 2026, 06:11 Оригинал в Telegram →

<b>HDBSCAN залез в speaker embeddings — и показал, как voice-ID модель группирует голоса</b>

В arXiv вышла работа про explainable AI в speaker recognition. Авторы анализируют latent representations моделей распознавания спикеров через SLINK и HDBSCAN — чтобы понять, как сеть иерархически группирует голоса внутри embedding space. Ещё они предложили Hierarchical Cluster-Class Matching и метрику Liebig score для оценки совпадения кластера с semantic class.

Для audio adtech и подкаст-платформ это интереснее обычного «объяснимого AI». Большая часть voice-ID систем остаётся чёрным ящиком: модель матчится на голос, но непонятно, какие признаки реально формируют кластеры. Здесь хотя бы появляется способ посмотреть, не группирует ли сеть спикеров по акценту, записи, шуму или другим скрытым факторам вместо identity.

Тем, кто закупает host-read через programmatic-стек, это даёт ещё один аргумент проверять voice-targeting модели не только по accuracy, но и по структуре embeddings. Особенно если платформа обещает сегментацию по типу ведущего или «похожим голосам».

Источники:

arxiv.org

Этот пост опубликован в Telegram-канале Podcast Pulse. Подписаться можно по ссылке: @podcast_pulse_aff.

Готовы запустить рекламу через сеть public.tg?