Pesquisar

Programa para extrair e classificar frases obtidas em arquivos de legendas

13/12/2023 às 15:04

Descrição do Projeto:

Programa para classificar frases extraídas de legendas

Preciso de um programa que classifique frases extraídas de uma pasta com milhares de legendas de acordo com a frequência das palavras que formam as frases. As legendas foram baixadas de https://www.opensubtitles.org/ e estão no formato .srt dentro de um arquivo .zip cada uma..

O programa deve ser capaz de remover caracteres especiais, linhas de tempo, números e outros elementos que não sejam letras/palavras que compõem frases.

Deve haver uma função para identificar frases, mesmo com a quebra de linha dos arquivos. Uma frase padrão tem início após “.” “!” ou “?” e termina também com “.” “!” ou “?”. Veja um exemplo:

—----------------------------------------------------
>>>>Entrada:

8
00:00:18,643 --> 00:00:21,061
How do we get you to stop
with this ghost nonsense?

9
00:00:21,062 --> 00:00:24,440
Lucas could spend his last years
in high school without a mom.

10
00:00:24,441 --> 00:00:25,566
That's a lot coming from you.

>>>>Saída:

How do we get you to stop with this ghost nonsense?
Lucas could spend his last years in high school without a mom.
That's a lot coming from you.
—----------------------------------------------------

Em seguida, o programa deve contar quantas vezes cada palavra aparece nos arquivos e classificá-las. Então, será gerado um arquivo chamado palavras.txt com a lista de palavras e o número de vezes que ela apareceu, da mais frequente para a menos frequente. Exemplo:
—----------------------------------------------------
you=255674
to=248567
I=231857
for=201864
—----------------------------------------------------
Depois disso, é preciso classificar as frases. Cada palavra recebe uma pontuação que é a quantidade de vezes que ela aparece nos arquivos. Assim, é somada a pontuação total da frase de acordo com a pontuação de cada palavra que está presente na frase.

Desse modo, o programa classifica as frases começando da frase com menor pontuação para a de maior pontuação. Deverá ser gerado um arquivo frases.txt com a lista de frases.

O arquivo gerado vai conter algumas frases com erros, mas não tem problema, pois será feita uma revisão manual do arquivo para selecionar as melhores frases e descartar algumas.

No entanto, é importante que o arquivo inicial das frases esteja bem “limpo” e as frases bem escritas para que o arquivo de saída fique o mais bem organizado possível. “Onde entra lixo, sai lixo!”

Os inputs são:
Local da pasta com as legendas
Número de frases a serem classificadas no arquivo de saída
Local dos arquivos de saída.

Os outputs são:
palavras.txt
frases.txt

Atividades do cliente nesse projeto:

Última visualização: 01/01/2024 às 08:28

Última interação: 13/12/2023 às 20:04

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Desenvolvimento Desktop
Orçamento: Aberto
Nível de experiência: Especialista
Visibilidade: Público
Propostas: 1
Interessados: 4
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (1)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Integração JSON Dialogflow - Integração Dialogflow WhatsApp, tenho sistema da Stackpost que utiliza o Baileys para WhatsApp, preciso integrar o arquivo JSON do Dialogflow.

Corrigir servidor na contabo que está travando e acesso com www e sem - Meu servidor se encontra na Contabo, ele trava os 2 sites que constam nele, param e não carregam, não consigo ter acesso pelo ROOT, a única forma que eu consigo fazer voltar &e...

Transformar planilhas do Excel em aplicativo - Olá! Tenho um infoproduto na área de confeitaria e gostaria de transformar a planilha de gestão do meu negócio que eu vendo como orderbump em aplicativo para iOS e Android.

Configuração Firewall pfSense 2.7 - Boa tarde! Precisava configurar o firewall pfSense para até 15 usuários, com integração AD Samba, controle de navegação e controle de usuários Wi-Fi...

Desenvolvimento de aplicação em java - O objetivo deste projeto é desenvolver uma aplicação simples em Java que simula uma máquina de pedidos de lanches. A aplicação permitirá que os usu&...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.