Introdução
Neste terceiro experimento, integrámos o Comfy UI com o modelo F5-TTS em português, rodando ambos em conjunto para tentar clonar o timbre e o sotaque de um falante de referência. Apesar de termos conseguido gerar áudio via F5-TTS a partir do pipeline do Comfy, as amostras apontam que a clonagem de voz ainda não preserva corretamente as características individuais do locutor. Há, portanto, margem significativa para aprimorar o F5-TTS nesse aspecto, tanto no fine-tuning quanto na arquitetura de condicionamento.
Tabela de Áudios Gerados
Texto | Arquivo |
---|---|
“Bom dia! Como você está hoje?” | |
“A nova biblioteca municipal abriu as portas ontem e já recebeu dezenas de visitantes apaixonados por leitura.” | |
“Na praça Central, músicos de rua se revezavam entre violão, gaita e percussão, criando uma atmosfera vibrante. Crianças corriam ao redor da fonte enquanto idosos conversavam em bancos de pedra, aproveitando a brisa leve do entardecer.” |