View on GitHub

Fala PB

Continuação do Finetuning

Nesta parte foram feitos testes iniciais com 5 áudios de finetuning nos modelos XTTS e F5 TTS.

F5 TTS

O F5 TTS apresentou muitos problemas para rodar, mas consegui depois de muita dificuldade fazer o docker funcionar corretamente. Apesar de rodar, o modelo carregado só gera gibberish (texto sem sentido).

Aplicação Finetune Figura 1: Interface da aplicação durante o finetune.

Exemplo de Áudio Gerado (Gibberish)

Áudio gerado pelo modelo F5 TTS após finetuning - apresenta apenas gibberish:

XTTS

O XTTS foi mais bem-sucedido. Consegui fazer o treino por uma época com 5 áudios.

Áudios Gerados

Áudios gerados após uma época de treinamento com áudios:

Imagens das Aplicações com Finetune

Aqui estão as imagens das aplicações com finetune rodando:

Aplicação Finetune Figura 1: Interface da aplicação durante o finetune.

Código para Rodar o Finetune

F5 TTS

Finetune:

docker container run --rm -it --gpus=all -v C:\Users\Tumais\Documents\GitHub\F5-TTS\data:/workspace/F5-TTS/data -v C:\Users\Tumais\Documents\GitHub\F5-TTS\ckpts:/workspace/F5-TTS/ckpts -p 7860:7860 ghcr.io/swivid/f5-tts:main f5-tts_finetune-gradio --host 0.0.0.0

Finetune com cache:

docker container run --rm -it --gpus=all -v C:\Users\Tumais\Documents\GitHub\F5-TTS\data:/workspace/F5-TTS/data -v C:\Users\Tumais\Documents\GitHub\F5-TTS\ckpts:/workspace/F5-TTS/ckpts -v C:\Users\Tumais\.cache\huggingface:/root/.cache/huggingface -p 7860:7860 ghcr.io/swivid/f5-tts:main f5-tts_finetune-gradio --host 0.0.0.0

Interface: http://localhost:7860

Caminhos dos modelos:

/workspace/F5-TTS/data/ptbr_char/model_last.safetensors
/workspace/F5-TTS/data/ptbr_char/model_last.pt

Inferência:

XTTS

Comando para rodar o demo:

python TTS/demos/xtts_ft_demo/xtts_demo.py

C:\tmp\xtts_ft\run\training\GPT_XTTS_FT-December-09-2025_11+59PM-268b532a\best_model_16.pth
C:\tmp\xtts_ft\run\training\GPT_XTTS_FT-December-09-2025_11+59PM-268b532a\config.json
C:\tmp\xtts_ft\run\training\XTTS_v2.0_original_model_files\vocab.json
C:\Users\Tumais\Documents\GitHub\coqui-ai-TTS\refs\thomaz_a1.wav

Tabela de Avaliação

Model	File	Duração (s)	NISQA Overall	Noisiness	Discontinuity	Coloration	Loudness	DNS Sig	DNS Bak	DNS Ovrl	DNS Ovrl Alt	Lev Dist	Lev Norm	Ref Chars
baseline	1.wav	10.74	3.34	3.01	4.40	3.79	3.85	3.84	3.62	3.91	3.23	0	0.00	111
baseline	2.wav	13.74	3.70	3.26	4.47	3.88	4.04	3.93	3.54	4.00	3.20	0	0.00	172
baseline	3.wav	10.68	4.69	4.41	4.76	4.48	4.62	4.15	3.56	4.15	3.30	0	0.00	161
f5tts	1.wav	2.09	5.01	4.18	4.78	4.63	4.74	3.66	3.48	4.15	3.24	0	0.00	19
f5tts	2.wav	7.48	4.88	4.58	4.82	4.47	4.69	4.24	3.67	4.16	3.43	0	0.00	108
f5tts	3.wav	16.02	4.94	4.53	4.83	4.46	4.72	4.18	3.57	4.11	3.32	10	0.04	228
xtts	1.wav	1.11	2.44	2.31	2.35	2.80	3.25	3.51	3.54	4.14	3.34	0	0.00	15
xtts	2.wav	7.56	3.49	3.12	3.19	3.50	3.77	3.98	3.63	4.15	3.41	2	0.02	114