View on GitHub

Fala PB

Relatório de unsloth parte 2 + Fish Speech

Texto Áudio
“Isso daqui é um texto de teste para ver se consegue gerar bem o texto.”
“Oi! Tudo bem com você? Espero que seu dia esteja sendo incrível!”
“Eu tava pensando em pedir um café agora, quer um também?”
“Ah… eu não acredito que isso deu certo! Finalmente, depois de tanto teste!”
“Update the audio driver and restart the system after installation.”
“Um panorama sereno que acalmava a alma de quem contemplava a paisagem, era um céu estrelado refletido na água calma do lago”

Modelo em PT-PT. Procurando por finetuning para ptbr:

https://github.com/fishaudio/fish-speech/issues/549

https://speech.fish.audio/finetune/

https://github.com/fishaudio/fish-speech

https://github.com/fishaudio/fish-speech/discussions/856

https://github.com/fishaudio/fish-speech/discussions/786

https://github.com/fishaudio/fish-speech/discussions/577

Com referencia

Texto Áudio
“O céu estrelado refletia na água calma do lago, criando um panorama sereno que acalmava a alma de quem contemplava a paisagem.”
“Eu me pergunto se isso realmente é uma forma de mudar o pensamento de alguém.”
“você contemplava a paisagem?”
“Um panorama sereno que acalmava a alma de quem contemplava a paisagem, era um céu estrelado refletido na água calma do lago”
“Uma criança curiosa tocava as pétalas macias das rosas no jardim, enquanto pássaros cantavam alegremente ao amanhecer em perfeita harmonia.”

Referencia:


Unsloth

Relatório — Fine-tuning TTS pt-BR com Unsloth/Orpheus

Objetivo

Realizar ajuste fino (LoRA) de um modelo TTS para pt-BR usando Unsloth/Orpheus-3B e um corpus próprio (áudio + texto), visando síntese de voz.


O que foi feito


Problemas encontrados e soluções


Resultados


Próximos passos

  1. Verificar se todos os exemplos têm audio_ids nos *_snac.jsonl.
  2. Rodar treino TTS completo (validar em CPU; preferir GPU em Linux/Colab para performance).
  3. Implementar inferência completa: generate()<custom_token_*>SNAC.decode → WAV.
  4. Em paralelo, avaliar FishSpeech 1.5/CSM-1B no Colab com o mesmo corpus.

Scripts principais

Datasets ptbr:

https://danielbrito.me/datasets-de-tts-em-portugues/