O artigo avalia modelos neurais de melhoria de áudio (speech enhancement) num cenário realista: telefonia tradicional (G.711, 8 kHz) usada por agentes de IA conversacional em português brasileiro. Os autores criaram um dataset PT-BR com fala natural e sintética (TTS) degradada por um simulador de telefonia (ruído, jitter, perda de pacotes) e compararam 9 modelos de IA para melhoria dos audios com métricas objetivas e teste subjetivo MUSHRA com 36 pessoas. (em breve link do artigo).
Aqui temos alguns exemplos para elucidar um achado interessante sobre a degradação de inteligibilidade para alguns modelos de melhorias dos áudios. Aqui temos dois áudios reconstruídos, sendo um com cenário de ruido bem agressivo:
[Audio 1 – Resamble Enhance –> Notar a degradação na inteligibilidade da fala]
[Audio 2 – APBWE]