Introdução
Neste capítulo apresentamos o experimento de transferência de timbre realizado com o modelo XTTS sobre falas em português brasileiro. Nosso objetivo foi avaliar não apenas a fidelidade do timbre, mas também verificar se, ao sintetizar trechos de fala cada vez mais longos, o modelo consegue capturar e reproduzir o sotaque original do falante de referência.
Para isso, organizamos três grupos de gravações de referência, cada um com cinco amostras:
- Grupo A: cinco sentenças de aproximadamente 10 segundos cada;
- Grupo B: cinco sentenças de aproximadamente 30 segundos cada;
- Grupo C: cinco sentenças de aproximadamente 60 segundos cada.
Em cada caso, sintetizamos as mesmas 10 frases-chaves usando cada conjunto de referências e comparamos a similaridade de timbre e sotaque entre o áudio original e o gerado. As impressões iniciais apontam que, embora o timbre seja razoavelmente mantido em segmentos curtos, a transferência de sotaque não é preservada em áudios mais longos, indicando uma limitação do modelo na reprodução de características regionais quando a fala se estende por períodos maiores.
Tabela de Áudios XTTS
Texto | A | B | C |
---|---|---|---|
A tecnologia mudou a forma como nos comunicamos e aprendemos. | |||
A vida é feita de escolhas. | |||
Aprender nunca é demais. | |||
As bibliotecas públicas têm papel essencial na democratização do conhecimento, oferecendo não só livros, mas também acesso à internet, cursos e espaços de convivência para a comunidade local. | |||
Em um mundo cada vez mais conectado, é fundamental equilibrar o uso de dispositivos móveis com momentos de descanso e socialização presencial, preservando nossa saúde mental e bem‑estar. | |||
Hoje o céu amanheceu com nuvens carregadas e uma leve brisa. | |||
No interior da cidade, praças antigas guardam histórias de gerações. | |||
O café fresco pela manhã anima qualquer rotina. | |||
Olá, tudo bem? | |||
Projetos de ciência cidadã estimulam a participação de voluntários em coletas de dados ambientais e podem contribuir para pesquisas sobre mudanças climáticas, flora, fauna e qualidade da água em diversas regiões. |
Referências de Áudio Utilizadas
A | B | C |
---|---|---|
Falas sintetizadas com o texto igual ao utilizado da referência
A | B | C |
---|---|---|