View on GitHub

Fala PB

Relatório de Fine-tuning do F5-TTS

Bem-vindo ao relatório do meu experimento de fine-tuning usando o F5-TTS com o corpus em português. Repositório: https://github.com/SWivid/F5-TTS


Configuração do Ambiente


Metodologia

  1. Conversão dos áudios para 24kHz
  2. Geração do raw.arrow, duration.json e vocab.txt
  3. Execução do finetune_cli.py com:
    • Epochs: 10 (teste inicial)
    • Batch size: 1
    • Mixed Precision: fp16

Resultados Parciais

Durante o treinamento foram gerados checkpoints salvos em ckpts/ptbr_char_test/.

Aqui estão alguns exemplos de saída:

Áudio Utilizado para gerar

Áudio gerado


Prints da aplicação

Aqui alguns prints do processo de treino:

UI F5-TTS
Figura 1: Interface do Gradio usada no treino.

UI F5-TTS
Figura 2: Interface do Gradio usada no treino.

UI F5-TTS
Figura 3: Interface do Gradio usada no treino.

UI F5-TTS
Figura 4: Interface do Gradio usada no treino.

UI F5-TTS
Figura 5: Interface do Gradio usada no treino.

UI F5-TTS
Figura 6: Interface do Gradio usada no treino.

UI F5-TTS
Figura 7: Interface do Gradio usada no treino.


Próximos Passos

Código para rodar

conda create -n f5-tts python=3.10 -y
conda activate f5-tts

pip install --upgrade pip
pip install torch==2.4.0+cu124 torchaudio==2.4.0+cu124 --extra-index-url https://download.pytorch.org/whl/cu124

pip install -e .
pip install accelerate peft datasets gradio librosa soundfile


pip install pandas datasets soundfile librosa pyarrow

f5-tts_finetune-gradio


vocab: data/ptbr_char/vocab.txt
checkpoint: ckpts/ptbr_firstpixel/model_last.safetensors