Pesquisar

Análise exploratória e manipulação de dados em Big Data

25/09/2024 às 16:50

Descrição do Projeto:

Instruções

Aplicar os conceitos sobre Big Data, mais especificamente no que diz respeito ao "V" de Volume, utilizando o Google Colab. Pesquisar formas para manipulação de grandes volumes de dados. A proposta é explorar uma base de dados de mais de 16GB, enfrentando os desafios práticos de performance e análise exploratória de dados.

Objetivo:

Realizar uma análise exploratória inicial e manipulação de uma base de dados com mais de 10GB, utilizando técnicas de otimização para manipulação eficiente em ambientes de memória limitada (como é o do Google Colab gratuito).

Instruções:

Usar a base de dados:
https://drive.google.com/file/d/1rQF3-fCrBVzvFn585xBCYIUOUEz-qVnY/view?usp=sharing

Explicação sobre o conjunto de dados:
https://www.kaggle.com/datasets/eaLtman2019/ibm-transactions-for-anti-money-laundering-aml

Configuração no Google Colab: Você deve utilizar o Google Colab para realizar a análise. Explicar como configurou o ambiente, incluindo:
- Como montou uma conexão com o Google Drive (ou outra fonte) para carregar a base de dados.
- Quais técnicas utilizou para ler e armazenar os dados de forma eficiente (uso de chunks, compressão de arquivos, etc.).

Análise Exploratória de Dados (EDA): Realize uma análise exploratória inicial da base de dados, incluindo:
- Quantidade total de registros
- Quantidade de colunas

Manipulação de Dados: Realize algumas manipulações nos dados, utilizando as técnicas que estudamos:
- Pesquise e aplique a técnica de leitura dos grandes arquivos utilizando o argumento chunksize do Pandas, Dask, PySpark, ou outro método; escolha três.
- Exiba análises estatísticas (describe) do conjunto de dados.
- Entendimento dos dados (datainfo).
- Valores faltantes.
- Registros duplicados.
- Tipos de dados das variáveis (object, int64...).
- Detecção de outliers (Boxplot é ótimo).
- Número de ocorrências por data (Dica: crie um campo só com a data a partir da variável Timestamp).
- Retorne o valor máximo, mínimo e média para os valores pagos e valores recebidos.
- Retorne os valores únicos das moedas utilizadas nos pagamentos e nos recebimentos.
- Retorne os valores únicos dos formatos de pagamento utilizados.
- Retorne a quantidade de registros marcados como lavagem e não lavagem de dinheiro em valores absolutos e valores relativos (porcentuais).
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por banco de origem.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por moeda utilizada.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por formato de pagamento.

Desempenho e Limitações: Ao final, descreva os desafios que enfrentou ao trabalhar com grandes volumes de dados e compare as soluções que explorou (uso de Pandas com chunks, Dask, PySpark, ou outro método); escolha três métodos. Explique as limitações encontradas e as soluções que considerou mais eficientes e por quê.

CONCLUSÃO: Executar uma análise dos métodos que selecionou e explicar as dificuldades e soluções encontradas.
Um relatório em PDF explicando todas as etapas do processo: configuração do Colab, análise exploratória e manipulação dos dados.

Atividades do cliente nesse projeto:

Última visualização: 21/11/2024 às 11:56

Última interação: 26/09/2024 às 08:34

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Outra - Web, Mobile & Software
Orçamento: Aberto
Nível de experiência: Intermediário
Visibilidade: Público
Propostas: 3
Interessados: 5
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (3)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Desenvolvimento de sistema de login para planilha - Tenho um curso online, no qual desenvolvemos uma planilha para ser utilizada durante o curso. Para os alunos acessarem essa planilha, nós criamos uma tela de login e senha. Porém, o ...

Desenvolvedor para automação com n8n, Make, Typebot e Chatwoot - Estou procurando um desenvolvedor para um trabalho pontual que tenha experiência com n8n, Typebot, Make, Zapier e Chatwoot. O foco é apoiar em projetos de desenvolvimento de integra&cc...

Desenvolvimento de plugin de chat e contador de visitas - Sobre o chat: Criar um plugin simples de perguntas e respostas internas entre cliente e profissional para um site de serviços. A ideia seria algo assim: O cliente acessa o anúncio e...

Desenvolvimento de CRM com reconhecimento facial - Briefing técnico – desenvolvimento do CRM com reconhecimento facial. Objetivo Construir, do zero, um módulo de CRM em Bubble (ou stack web equivalente) que receba eventos de re...

Programador para sistema de Minecraft - Preciso de um freelancer que transforme o jogo do Roblox em algo parecido com o mapa do Minecraft. Em anexo tem uma foto do jogo para seguir como referência. Enviem propostas e qualquer d&u...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.