View on GitHub

Fala PB

Descrição

Foram utilizados cerca de duzentos áudios como amostra para a avaliação. Inicialmente, a tentativa foi realizar inferências diretas com o modelo F5-TTS, mas o resultado não foi satisfatório. Diante disso, optei por utilizar como baseline os próprios áudios de referência e também algumas amostras previamente geradas com o F5-TTS em experimentos anteriores, de forma a comparar a consistência e a qualidade geral das saídas.

A partir dessas amostras, gerei uma tabela consolidando as principais métricas de cada arquivo, incluindo duração, qualidade perceptual e distância textual entre o texto esperado e o texto obtido nas transcrições. O objetivo foi documentar o desempenho real do baseline em relação às versões sintetizadas, servindo como ponto de partida para análises e melhorias posteriores do modelo.

Modelo Arquivo Duração (s) NISQA Overall Noisiness Discontinuity Coloration Loudness DNS Sig DNS Bak DNS Ovrl DNS Ovrl (Alt) Lev Dist Lev Norm Ref Chars Texto
baseline 1.wav 10.74 3.340 3.007 4.395 3.786 3.850 3.842 3.617 3.914 3.226 0 0.0 111 A velha locomotiva vem com pouca carga e esfaróis iluminam as flores da rua em que a criança desenhou um vulcão.
baseline 2.wav 13.74 3.702 3.263 4.472 3.878 4.041 3.925 3.540 4.000 3.201 0 0.0 172 Suas atitudes são muito drásticas e resultarão em guerra entre vocês. Ela chegou a pedir o divórcio antes dele morrer e pensou que podia compartilhar esse documento com você.
baseline 3.wav 10.68 4.687 4.414 4.756 4.478 4.620 4.150 3.556 4.150 3.303 0 0.0 161 Você tem razão, a correção da prova não foi justa e a turma tirou notas abaixo da média. Assim como a gestão do atual prefeito, a diretoria não está agradando o povo.
f5tts 1.wav 2.09 5.006 4.176 4.776 4.629 4.737 3.665 3.478 4.146 3.241 0 0.0 19 Como você está hoje?
f5tts 2.wav 7.48 4.883 4.580 4.818 4.466 4.688 4.240 3.667 4.159 3.434 0 0.0 108 A nova biblioteca municipal abriu as portas ontem e já recebeu dezenas de visitantes apaixonados por leitura.
f5tts 3.wav 16.02 4.941 4.525 4.832 4.460 4.720 4.183 3.574 4.112 3.324 9 0.039 228 “Na praça Central, músicos de rua se revezavam entre violão, gaita e percussão, criando uma atmosfera vibrante. Crianças corriam ao redor da fonte enquanto idosos conversavam em bancos de pedra, aproveitando a brisa leve do entardecer.”