View on GitHub

Fala PB

Introdução

Neste capítulo apresentamos o experimento de transferência de timbre realizado com o modelo XTTS sobre falas em português brasileiro. Nosso objetivo foi avaliar não apenas a fidelidade do timbre, mas também verificar se, ao sintetizar trechos de fala cada vez mais longos, o modelo consegue capturar e reproduzir o sotaque original do falante de referência.

Para isso, organizamos três grupos de gravações de referência, cada um com cinco amostras:

Grupo A: cinco sentenças de aproximadamente 10 segundos cada;
Grupo B: cinco sentenças de aproximadamente 30 segundos cada;
Grupo C: cinco sentenças de aproximadamente 60 segundos cada.

Em cada caso, sintetizamos as mesmas 10 frases-chaves usando cada conjunto de referências e comparamos a similaridade de timbre e sotaque entre o áudio original e o gerado. As impressões iniciais apontam que, embora o timbre seja razoavelmente mantido em segmentos curtos, a transferência de sotaque não é preservada em áudios mais longos, indicando uma limitação do modelo na reprodução de características regionais quando a fala se estende por períodos maiores.

Tabela de Áudios XTTS

Texto	A	B	C
A tecnologia mudou a forma como nos comunicamos e aprendemos.
A vida é feita de escolhas.
Aprender nunca é demais.
As bibliotecas públicas têm papel essencial na democratização do conhecimento, oferecendo não só livros, mas também acesso à internet, cursos e espaços de convivência para a comunidade local.
Em um mundo cada vez mais conectado, é fundamental equilibrar o uso de dispositivos móveis com momentos de descanso e socialização presencial, preservando nossa saúde mental e bem‑estar.
Hoje o céu amanheceu com nuvens carregadas e uma leve brisa.
No interior da cidade, praças antigas guardam histórias de gerações.
O café fresco pela manhã anima qualquer rotina.
Olá, tudo bem?
Projetos de ciência cidadã estimulam a participação de voluntários em coletas de dados ambientais e podem contribuir para pesquisas sobre mudanças climáticas, flora, fauna e qualidade da água em diversas regiões.

Referências de Áudio Utilizadas

A	B	C

Falas sintetizadas com o texto igual ao utilizado da referência

A	B	C