Pesquisar

Análise exploratória e manipulação de dados em Big Data

25/09/2024 às 16:50

Descrição do Projeto:

Instruções

Aplicar os conceitos sobre Big Data, mais especificamente no que diz respeito ao "V" de Volume, utilizando o Google Colab. Pesquisar formas para manipulação de grandes volumes de dados. A proposta é explorar uma base de dados de mais de 16GB, enfrentando os desafios práticos de performance e análise exploratória de dados.

Objetivo:

Realizar uma análise exploratória inicial e manipulação de uma base de dados com mais de 10GB, utilizando técnicas de otimização para manipulação eficiente em ambientes de memória limitada (como é o do Google Colab gratuito).

Instruções:

Usar a base de dados:
https://drive.google.com/file/d/1rQF3-fCrBVzvFn585xBCYIUOUEz-qVnY/view?usp=sharing

Explicação sobre o conjunto de dados:
https://www.kaggle.com/datasets/eaLtman2019/ibm-transactions-for-anti-money-laundering-aml

Configuração no Google Colab: Você deve utilizar o Google Colab para realizar a análise. Explicar como configurou o ambiente, incluindo:
- Como montou uma conexão com o Google Drive (ou outra fonte) para carregar a base de dados.
- Quais técnicas utilizou para ler e armazenar os dados de forma eficiente (uso de chunks, compressão de arquivos, etc.).

Análise Exploratória de Dados (EDA): Realize uma análise exploratória inicial da base de dados, incluindo:
- Quantidade total de registros
- Quantidade de colunas

Manipulação de Dados: Realize algumas manipulações nos dados, utilizando as técnicas que estudamos:
- Pesquise e aplique a técnica de leitura dos grandes arquivos utilizando o argumento chunksize do Pandas, Dask, PySpark, ou outro método; escolha três.
- Exiba análises estatísticas (describe) do conjunto de dados.
- Entendimento dos dados (datainfo).
- Valores faltantes.
- Registros duplicados.
- Tipos de dados das variáveis (object, int64...).
- Detecção de outliers (Boxplot é ótimo).
- Número de ocorrências por data (Dica: crie um campo só com a data a partir da variável Timestamp).
- Retorne o valor máximo, mínimo e média para os valores pagos e valores recebidos.
- Retorne os valores únicos das moedas utilizadas nos pagamentos e nos recebimentos.
- Retorne os valores únicos dos formatos de pagamento utilizados.
- Retorne a quantidade de registros marcados como lavagem e não lavagem de dinheiro em valores absolutos e valores relativos (porcentuais).
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por banco de origem.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por moeda utilizada.
- Mostre um gráfico com a quantidade de registros de lavagem de dinheiro por formato de pagamento.

Desempenho e Limitações: Ao final, descreva os desafios que enfrentou ao trabalhar com grandes volumes de dados e compare as soluções que explorou (uso de Pandas com chunks, Dask, PySpark, ou outro método); escolha três métodos. Explique as limitações encontradas e as soluções que considerou mais eficientes e por quê.

CONCLUSÃO: Executar uma análise dos métodos que selecionou e explicar as dificuldades e soluções encontradas.
Um relatório em PDF explicando todas as etapas do processo: configuração do Colab, análise exploratória e manipulação dos dados.

Atividades do cliente nesse projeto:

Última visualização: 21/11/2024 às 11:56

Última interação: 26/09/2024 às 08:34

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Outra - Web, Mobile & Software
Orçamento: Aberto
Nível de experiência: Intermediário
Visibilidade: Público
Propostas: 3
Interessados: 5
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (3)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Bot de monitoramento de preços e envio de sinais - Preciso de alguém que desenvolva um bot que envie sinais para o Telegram com definições pré-definidas. Por exemplo: dentro do bot no Telegram, definir filtro para enviar...

Especialista em criptomoedas e Depix para vendas e recebimentos - Procuro freelancer especialista em criptomoedas e Depix para implantar soluções de pagamentos, tanto para vendas quanto para recebimentos de valores. É necessário conhe...

Tecnologia KYC para nicho hot - (+18) - Tenho uma operação no nicho hot. Procuro um desenvolvedor para criar sistemas de verificação KYC. Busco uma parceria de longo prazo!

Consertar bot de salas de Free Fire no Discord - Meu bot, que gerencia salas de Free Fire no servidor do Discord, está apresentando 'API offline'. O problema ocorre de forma intermitente e impede os administradores de executar co...

Configurar automação de fluxo de trabalho para imóveis com Python e Zoho - Em busca de um profissional experiente para atuar na primeira fase de um projeto de estruturação e automação operacional dentro do ecossistema Zoho One, focado no setor ...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.