Descrição do Projeto:
Gravação de voz em português do Brasil - corpus para TTS (SipPulse)
Resumo
Procuramos locutores(as) para gravar de 3 a 4 horas de fala em português do Brasil, lendo um roteiro de 2.215 frases que enviaremos. O material será usado para treinar um modelo de voz próprio. Buscamos leitura natural, clara e consistente - não locução exagerada de propaganda. Vamos contratar 4 vozes.
Quem buscamos
- Voz nativa de português do Brasil, dicção clara, sem sotaque regional muito marcado.
- Capacidade de manter timbre e ritmo consistentes do início ao fim da gravação.
- Ambiente silencioso e equipamento adequado (ver especificações).
Casting por estilo (importante)
Vamos contratar 4 vozes, em dois estilos:
- 2 vozes conversacionais / animadas: ritmo um pouco mais rápido, expressiva e animada, energia natural. "Não pode parecer que está lendo" - tem que parecer que está conversando. Estas vozes gravam o roteiro principal MAIS um pacote conversacional adicional.
- 2 vozes neutras / padrão: natural e clara, ritmo moderado, tom profissional-amigável. Gravam apenas o roteiro principal.
Vamos enviar um áudio de referência do estilo conversacional/animado desejado. Buscamos a energia e o estilo de entrega da referência, não imitar o timbre.
Seleção: demo de áudio (obrigatório para participar)
Antes de fechar contrato, envie um demo de aproximadamente 5 minutos, gravado no mesmo equipamento e sala que usará no projeto (o demo já mostra a qualidade técnica real). O demo é o critério de decisão.
O que ler no demo (vamos enviar o roteiro):
- As frases 0001 a 0040 do roteiro principal; e
- Para a vaga conversacional/animada: também as frases 2216 a 2235 do pacote conversacional, na entrega animada e espontânea (é nelas que avaliamos o estilo "não parece leitura").
Como avaliamos o demo:
- O estilo bate com a vaga (animada ou neutra).
- Qualidade técnica: silêncio de fundo, sem ruído/eco/clipping, áudio com banda cheia.
- Consistência de timbre e ritmo, dicção clara, entonação correta em perguntas e exclamações.
- Nomeie o demo: Demo_SeuNome.wav (mesmo formato e specs abaixo).
Especificações técnicas (obrigatórias)
- Formato: WAV (PCM), MONO, 48 kHz / 24-bit (mínimo 24 kHz / 16-bit).
- Sem compressão, sem reverb ou efeitos, sem normalização agressiva, sem redução de ruído destrutiva.
- Sala tratada/silenciosa: ruído de fundo mínimo, sem eco, sem ar-condicionado ou ventilador audível.
- Microfone condensador com pop filter; distância e ganho constantes; sem clipping (picos abaixo de -3 dBFS).
- Mesmo microfone, sala, ganho e distância em TODAS as sessões (consistência é crítica).
Conteúdo e tom
- Ler todas as 2.215 frases, na ordem do roteiro.
- Frases terminadas em "?": entonação real de pergunta (subida no final). São cerca de 282.
- Frases terminadas em "!": energia e ênfase de exclamação. São cerca de 218.
- Mantenha o mesmo estilo do começo ao fim.
- Se errar uma frase, regrave a frase inteira (não emende no meio).
Direção por estilo:
- Conversacional/animada: fale como se estivesse contando algo a um amigo, não lendo. Ritmo um pouco mais rápido, energia e variação de entonação, leve "sorriso na voz". Mesmo as frases formais devem soar espontâneas.
- Neutra/padrão: natural, clara, ritmo moderado, tom profissional-amigável.
Prioridade: as frases 0001 a 0324 são o núcleo fonético (cobrem todos os sons do português). Grave-as primeiro; o restante completa a variedade e a duração.
Nomeação dos arquivos (essencial)
- Um arquivo WAV por frase, nomeado com o número da frase no roteiro: Voz1_0001.wav, Voz1_0002.wav, ... Voz1_2215.wav (troque "Voz1" pelo identificador da voz).
- O número do arquivo TEM que bater com a linha do roteiro. Esse alinhamento é o que permite treinar o modelo.
Entrega
- Uma pasta por voz, com os WAVs nomeados como acima.
- Uma planilha simples de controle (frases gravadas e regravadas).
- Áudio bruto, sem pós-processamento.
Checklist antes de entregar
- Cada WAV corresponde exatamente ao texto da linha de mesmo número.
- Sem ruído de fundo audível, cliques, estalos ou respiração excessiva.
- Sem clipping (picos abaixo de -3 dBFS); volume consistente entre arquivos.
- Mono, 48 kHz/24-bit (ou 24 kHz/16-bit), WAV PCM.
- Perguntas e exclamações com a entonação correta.
Direitos (cláusula obrigatória no contrato)
O(a) locutor(a) cede de forma integral, irrevogável e definitiva à SipPulse todos os direitos sobre as gravações, incluindo o uso da voz para treinamento, síntese e geração de fala por inteligência artificial (TTS), para fins comerciais, sem limite de tempo ou território, mediante o pagamento acordado (buyout total).
Anexos que enviaremos ao selecionado
- recording_corpus_ptbr.txt: 2.215 frases numeradas (roteiro principal).
- conversational_pack_ptbr.txt: pacote conversacional adicional (só para as vozes animadas).
- Áudio de referência do estilo conversacional/animado.