Introdução
A busca inicial por bases de dados resultou em três principais bases, que apresentam registros de falantes da região da Paraíba ou de variedades do Português Brasileiro com relevância para o estudo de sotaque/variação regional. Em cada seção será apresentada uma breve introdução da base de dados e uma tabela com exemplos de áudios.
BrAccent
A base de dados Braccent (2019) reúne 8 falas masculinas e 56 femininas (total de 64 áudios) para investigação de variações de sotaque no Brasil. O link público ou a licença não parecem estar claramente documentados, o que exige verificação antes de uso em produção.
Entrei em contato com a autora.
https://github.com/sotaque-brasileiro/sotaque-brasileiro
Sotaque Brasileiro
A base de dados Sotaque Brasileiro (2021) está disponível via GitHub (repositório “sotaque-brasileiro/sotaque-brasileiro”). GitHub Composta por 1 fala masculina e 3 falas femininas (total de 4 áudios) com duração de cerca de 53 segundos, ela destina-se ao estudo de regionalismos e sotaques no português brasileiro. A licença não está claramente indicada no repositório.
Entrei em contato com autor.
https://biblioteca.sbrt.org.br/articles/1799
https://aclanthology.org/2024.propor-1.37.pdf
CoLingPB – Corpus Linguístico da Paraíba
O corpus Corpus Linguístico da Paraíba (“CallingPB”) reúne dados de fala regional da Paraíba e inclui material coletado para variação sociolinguística. A licença para as fichas sociais dos informantes consta como CC BY-NC-ND 3.0 BR, embora o áudio propriamente dito não tenha uma licença pública claramente visível.
Entrei em contato com o autor.