Pesquisar

Programa para extrair e classificar frases obtidas em arquivos de legendas

13/12/2023 às 15:04

Descrição do Projeto:

Programa para classificar frases extraídas de legendas

Preciso de um programa que classifique frases extraídas de uma pasta com milhares de legendas de acordo com a frequência das palavras que formam as frases. As legendas foram baixadas de https://www.opensubtitles.org/ e estão no formato .srt dentro de um arquivo .zip cada uma..

O programa deve ser capaz de remover caracteres especiais, linhas de tempo, números e outros elementos que não sejam letras/palavras que compõem frases.

Deve haver uma função para identificar frases, mesmo com a quebra de linha dos arquivos. Uma frase padrão tem início após “.” “!” ou “?” e termina também com “.” “!” ou “?”. Veja um exemplo:

—----------------------------------------------------
>>>>Entrada:

8
00:00:18,643 --> 00:00:21,061
How do we get you to stop
with this ghost nonsense?

9
00:00:21,062 --> 00:00:24,440
Lucas could spend his last years
in high school without a mom.

10
00:00:24,441 --> 00:00:25,566
That's a lot coming from you.

>>>>Saída:

How do we get you to stop with this ghost nonsense?
Lucas could spend his last years in high school without a mom.
That's a lot coming from you.
—----------------------------------------------------

Em seguida, o programa deve contar quantas vezes cada palavra aparece nos arquivos e classificá-las. Então, será gerado um arquivo chamado palavras.txt com a lista de palavras e o número de vezes que ela apareceu, da mais frequente para a menos frequente. Exemplo:
—----------------------------------------------------
you=255674
to=248567
I=231857
for=201864
—----------------------------------------------------
Depois disso, é preciso classificar as frases. Cada palavra recebe uma pontuação que é a quantidade de vezes que ela aparece nos arquivos. Assim, é somada a pontuação total da frase de acordo com a pontuação de cada palavra que está presente na frase.

Desse modo, o programa classifica as frases começando da frase com menor pontuação para a de maior pontuação. Deverá ser gerado um arquivo frases.txt com a lista de frases.

O arquivo gerado vai conter algumas frases com erros, mas não tem problema, pois será feita uma revisão manual do arquivo para selecionar as melhores frases e descartar algumas.

No entanto, é importante que o arquivo inicial das frases esteja bem “limpo” e as frases bem escritas para que o arquivo de saída fique o mais bem organizado possível. “Onde entra lixo, sai lixo!”

Os inputs são:
Local da pasta com as legendas
Número de frases a serem classificadas no arquivo de saída
Local dos arquivos de saída.

Os outputs são:
palavras.txt
frases.txt

Atividades do cliente nesse projeto:

Última visualização: 01/01/2024 às 08:28

Última interação: 13/12/2023 às 20:04

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Desenvolvimento Desktop
Orçamento: Aberto
Nível de experiência: Especialista
Visibilidade: Público
Propostas: 1
Interessados: 4
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (1)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Envio de lote RPS (Nota Fiscal Paulistana) - Desenvolver em C# (.NET 8 / win-x64 / WinForms) a integração com o WebService da Prefeitura de São Paulo para envio de lote RPS (LoteNFe) via SOAP 1.2, com base no WSDL abaixo:...

Atualização e instalação de programa em Delphi 2010 (VM/instalador) - Preciso de alguém que compile, no ambiente original, atualizações de um programa na VM/instalador do Delphi 2010, incluindo os componentes necessários.

Leitura de arquivos e geração de propostas comerciais unificadas - LEITURA DE ARQUIVOS E GERAÇÃO DE PROPOSTAS COMERCIAIS E CONTEÚDOS UNIFICADOS Objetivo: Desenvolver um fluxo automatizado (estilo N8N Cloud / automação orquestrad...

Criar RPA para agendar publicações em massa no Facebook e Instagram - Criar RPA para agendar publicações em massa no Facebook e Instagram pelo Meta Business Suite. O robô deve agendar publicações em lote e executar todo o procediment...

Especialista Microsoft 365 para implantação de PMO SaaS - Estamos estruturando um PMO SaaS baseado em Microsoft 365 e buscamos um especialista técnico para desenvolver a arquitetura e implantar a infraestrutura integrada entre: • Microsoft Sh...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.