View on GitHub

Fala PB

Continuação do Finetuning

Nesta parte foram feitos testes iniciais com 5 áudios de finetuning nos modelos XTTS e F5 TTS.

F5 TTS

O F5 TTS apresentou muitos problemas para rodar, mas consegui depois de muita dificuldade fazer o docker funcionar corretamente. Apesar de rodar, o modelo carregado só gera gibberish (texto sem sentido).

Aplicação Finetune Figura 1: Interface da aplicação durante o finetune.

Exemplo de Áudio Gerado (Gibberish)

Áudio gerado pelo modelo F5 TTS após finetuning - apresenta apenas gibberish:

XTTS

O XTTS foi mais bem-sucedido. Consegui fazer o treino por uma época com 5 áudios.

Áudios Gerados

Áudios gerados após uma época de treinamento com áudios:

Imagens das Aplicações com Finetune

Aqui estão as imagens das aplicações com finetune rodando:

Aplicação Finetune Figura 1: Interface da aplicação durante o finetune.

Código para Rodar o Finetune

F5 TTS

Finetune:

docker container run --rm -it --gpus=all -v C:\Users\Tumais\Documents\GitHub\F5-TTS\data:/workspace/F5-TTS/data -v C:\Users\Tumais\Documents\GitHub\F5-TTS\ckpts:/workspace/F5-TTS/ckpts -p 7860:7860 ghcr.io/swivid/f5-tts:main f5-tts_finetune-gradio --host 0.0.0.0

Finetune com cache:

docker container run --rm -it --gpus=all -v C:\Users\Tumais\Documents\GitHub\F5-TTS\data:/workspace/F5-TTS/data -v C:\Users\Tumais\Documents\GitHub\F5-TTS\ckpts:/workspace/F5-TTS/ckpts -v C:\Users\Tumais\.cache\huggingface:/root/.cache/huggingface -p 7860:7860 ghcr.io/swivid/f5-tts:main f5-tts_finetune-gradio --host 0.0.0.0

Interface: http://localhost:7860

Caminhos dos modelos:

Inferência:

XTTS

Comando para rodar o demo:

python TTS/demos/xtts_ft_demo/xtts_demo.py
C:\tmp\xtts_ft\run\training\GPT_XTTS_FT-December-09-2025_11+59PM-268b532a\best_model_16.pth
C:\tmp\xtts_ft\run\training\GPT_XTTS_FT-December-09-2025_11+59PM-268b532a\config.json
C:\tmp\xtts_ft\run\training\XTTS_v2.0_original_model_files\vocab.json
C:\Users\Tumais\Documents\GitHub\coqui-ai-TTS\refs\thomaz_a1.wav

Tabela de Avaliação

Model File Duração (s) NISQA Overall Noisiness Discontinuity Coloration Loudness DNS Sig DNS Bak DNS Ovrl DNS Ovrl Alt Lev Dist Lev Norm Ref Chars
baseline 1.wav 10.74 3.34 3.01 4.40 3.79 3.85 3.84 3.62 3.91 3.23 0 0.00 111
baseline 2.wav 13.74 3.70 3.26 4.47 3.88 4.04 3.93 3.54 4.00 3.20 0 0.00 172
baseline 3.wav 10.68 4.69 4.41 4.76 4.48 4.62 4.15 3.56 4.15 3.30 0 0.00 161
f5tts 1.wav 2.09 5.01 4.18 4.78 4.63 4.74 3.66 3.48 4.15 3.24 0 0.00 19
f5tts 2.wav 7.48 4.88 4.58 4.82 4.47 4.69 4.24 3.67 4.16 3.43 0 0.00 108
f5tts 3.wav 16.02 4.94 4.53 4.83 4.46 4.72 4.18 3.57 4.11 3.32 10 0.04 228
xtts 1.wav 1.11 2.44 2.31 2.35 2.80 3.25 3.51 3.54 4.14 3.34 0 0.00 15
xtts 2.wav 7.56 3.49 3.12 3.19 3.50 3.77 3.98 3.63 4.15 3.41 2 0.02 114