Continuação do Finetuning
Nesta parte foram feitos testes iniciais com 5 áudios de finetuning nos modelos XTTS e F5 TTS.
F5 TTS
O F5 TTS apresentou muitos problemas para rodar, mas consegui depois de muita dificuldade fazer o docker funcionar corretamente. Apesar de rodar, o modelo carregado só gera gibberish (texto sem sentido).
Figura 1: Interface da aplicação durante o finetune.
Exemplo de Áudio Gerado (Gibberish)
Áudio gerado pelo modelo F5 TTS após finetuning - apresenta apenas gibberish:
XTTS
O XTTS foi mais bem-sucedido. Consegui fazer o treino por uma época com 5 áudios.
Áudios Gerados
Áudios gerados após uma época de treinamento com áudios:
Imagens das Aplicações com Finetune
Aqui estão as imagens das aplicações com finetune rodando:
Figura 1: Interface da aplicação durante o finetune.
Código para Rodar o Finetune
F5 TTS
Finetune:
docker container run --rm -it --gpus=all -v C:\Users\Tumais\Documents\GitHub\F5-TTS\data:/workspace/F5-TTS/data -v C:\Users\Tumais\Documents\GitHub\F5-TTS\ckpts:/workspace/F5-TTS/ckpts -p 7860:7860 ghcr.io/swivid/f5-tts:main f5-tts_finetune-gradio --host 0.0.0.0
Finetune com cache:
docker container run --rm -it --gpus=all -v C:\Users\Tumais\Documents\GitHub\F5-TTS\data:/workspace/F5-TTS/data -v C:\Users\Tumais\Documents\GitHub\F5-TTS\ckpts:/workspace/F5-TTS/ckpts -v C:\Users\Tumais\.cache\huggingface:/root/.cache/huggingface -p 7860:7860 ghcr.io/swivid/f5-tts:main f5-tts_finetune-gradio --host 0.0.0.0
Interface: http://localhost:7860
Caminhos dos modelos:
/workspace/F5-TTS/data/ptbr_char/model_last.safetensors/workspace/F5-TTS/data/ptbr_char/model_last.pt
Inferência:
XTTS
Comando para rodar o demo:
python TTS/demos/xtts_ft_demo/xtts_demo.py
C:\tmp\xtts_ft\run\training\GPT_XTTS_FT-December-09-2025_11+59PM-268b532a\best_model_16.pth
C:\tmp\xtts_ft\run\training\GPT_XTTS_FT-December-09-2025_11+59PM-268b532a\config.json
C:\tmp\xtts_ft\run\training\XTTS_v2.0_original_model_files\vocab.json
C:\Users\Tumais\Documents\GitHub\coqui-ai-TTS\refs\thomaz_a1.wav
Tabela de Avaliação
| Model | File | Duração (s) | NISQA Overall | Noisiness | Discontinuity | Coloration | Loudness | DNS Sig | DNS Bak | DNS Ovrl | DNS Ovrl Alt | Lev Dist | Lev Norm | Ref Chars |
|---|---|---|---|---|---|---|---|---|---|---|---|---|---|---|
| baseline | 1.wav | 10.74 | 3.34 | 3.01 | 4.40 | 3.79 | 3.85 | 3.84 | 3.62 | 3.91 | 3.23 | 0 | 0.00 | 111 |
| baseline | 2.wav | 13.74 | 3.70 | 3.26 | 4.47 | 3.88 | 4.04 | 3.93 | 3.54 | 4.00 | 3.20 | 0 | 0.00 | 172 |
| baseline | 3.wav | 10.68 | 4.69 | 4.41 | 4.76 | 4.48 | 4.62 | 4.15 | 3.56 | 4.15 | 3.30 | 0 | 0.00 | 161 |
| f5tts | 1.wav | 2.09 | 5.01 | 4.18 | 4.78 | 4.63 | 4.74 | 3.66 | 3.48 | 4.15 | 3.24 | 0 | 0.00 | 19 |
| f5tts | 2.wav | 7.48 | 4.88 | 4.58 | 4.82 | 4.47 | 4.69 | 4.24 | 3.67 | 4.16 | 3.43 | 0 | 0.00 | 108 |
| f5tts | 3.wav | 16.02 | 4.94 | 4.53 | 4.83 | 4.46 | 4.72 | 4.18 | 3.57 | 4.11 | 3.32 | 10 | 0.04 | 228 |
| xtts | 1.wav | 1.11 | 2.44 | 2.31 | 2.35 | 2.80 | 3.25 | 3.51 | 3.54 | 4.14 | 3.34 | 0 | 0.00 | 15 |
| xtts | 2.wav | 7.56 | 3.49 | 3.12 | 3.19 | 3.50 | 3.77 | 3.98 | 3.63 | 4.15 | 3.41 | 2 | 0.02 | 114 |