View on GitHub

Fala PB

Introdução

Neste terceiro experimento, integrámos o Comfy UI com o modelo F5-TTS em português, rodando ambos em conjunto para tentar clonar o timbre e o sotaque de um falante de referência. Apesar de termos conseguido gerar áudio via F5-TTS a partir do pipeline do Comfy, as amostras apontam que a clonagem de voz ainda não preserva corretamente as características individuais do locutor. Há, portanto, margem significativa para aprimorar o F5-TTS nesse aspecto, tanto no fine-tuning quanto na arquitetura de condicionamento.

Captura de tela do Comfy UI com F5-TTS

Tabela de Áudios Gerados

Texto Arquivo
“Bom dia! Como você está hoje?”
“A nova biblioteca municipal abriu as portas ontem e já recebeu dezenas de visitantes apaixonados por leitura.”
“Na praça Central, músicos de rua se revezavam entre violão, gaita e percussão, criando uma atmosfera vibrante. Crianças corriam ao redor da fonte enquanto idosos conversavam em bancos de pedra, aproveitando a brisa leve do entardecer.”