Introdução
Neste terceiro experimento, integrámos o Comfy UI com o modelo F5-TTS em português, rodando ambos em conjunto para tentar clonar o timbre e o sotaque de um falante de referência. Apesar de termos conseguido gerar áudio via F5-TTS a partir do pipeline do Comfy, as amostras apontam que a clonagem de voz ainda não preserva corretamente as características individuais do locutor. Há, portanto, margem significativa para aprimorar o F5-TTS nesse aspecto, tanto no fine-tuning quanto na arquitetura de condicionamento.

Tabela de Áudios Gerados
| Texto | Arquivo |
|---|---|
| “Bom dia! Como você está hoje?” | |
| “A nova biblioteca municipal abriu as portas ontem e já recebeu dezenas de visitantes apaixonados por leitura.” | |
| “Na praça Central, músicos de rua se revezavam entre violão, gaita e percussão, criando uma atmosfera vibrante. Crianças corriam ao redor da fonte enquanto idosos conversavam em bancos de pedra, aproveitando a brisa leve do entardecer.” |