Pesquisar

Dispersão de bactérias com machine learning

25/09/2024 às 08:35

Descrição do Projeto:

Descrição: Evitando armadilhas no aprendizado de máquina: modelagem preditiva com PyCaret

VENCIMENTO: 01/10/24

Objetivo:

Desenvolver uma compreensão crítica sobre as armadilhas comuns do aprendizado de máquina e aplicar boas práticas no desenvolvimento de modelos preditivos. Para isso, você utilizará a biblioteca PyCaret, explorando todas as fases de um pipeline preditivo, desde o pré-processamento até a avaliação final e a otimização de hiperparâmetros, sempre se referindo aos pontos abordados no artigo de Michael A. Lones, "How to avoid machine learning pitfalls: a guide for academic researchers", disponível em:

https://arxiv.org/pdf/2108.02497

Variável dependente: dispersion_factor

Etapas do trabalho:

1 - Exploração de dados:
Utilizando o conjunto de dados de fator de dispersão de bactéria, disponível no endereço: https://github.com/alvaroriz/datascience_datasets/raw/refs/heads/main/bacteria_dispersion_factor_10_K.xlsx, realize uma análise exploratória, identificando possíveis problemas como valores ausentes, outliers e variáveis irrelevantes.
Faça uma análise crítica da qualidade dos dados e suas limitações, referenciando as boas práticas mencionadas no artigo de Lones.

2 - Pré-processamento e divisão de dados:
Implemente técnicas de pré-processamento, como tratamento de valores ausentes, caso existam, escalonamento de variáveis e codificação de variáveis categóricas.
Garanta que não haja vazamento de informações entre os conjuntos de treinamento e teste, justificando a estratégia de divisão de dados que adotou, conforme discutido no artigo.

3 - Construção de modelos:
Utilize a funcionalidade de "compare_models" do PyCaret para testar diferentes algoritmos de aprendizado supervisionado, como Regressão Linear, Random Forest, SVM, entre outros.
Avalie o desempenho do modelo utilizando métricas adequadas (como RMSE, AUC, Accuracy), discutindo a importância da escolha de métricas apropriadas com base nas características do conjunto de dados. Originalmente, a variável dependente do conjunto de dados é uma variável contínua. Comente a importância de cada uma das métricas geradas e faça uma análise pertinente ao conjunto de dados.
Justifique a seleção do modelo e como evitou o uso de modelos inadequados, conforme descrito no artigo.

4 - Otimização de hiperparâmetros:
Utilize a função "tune_model" do PyCaret para realizar a otimização dos hiperparâmetros do modelo que obteve o melhor desempenho.
Compare os resultados antes e depois da otimização, explicando como a otimização dos hiperparâmetros melhorou o modelo, caso tenha melhorado.

5 - Aplique a base de testes no modelo treinado:
Exiba o resultado dos testes, com as métricas, data frame com os dados reais e previstos, resultado das previsões.

6 - Relatório final:
Apresente um relatório detalhado documentando todo o processo de construção e avaliação do modelo, justificando cada decisão com base no artigo de Lones.
Explique quais armadilhas foram evitadas e como as boas práticas do artigo foram aplicadas, incluindo gráficos e tabelas que ajudem a ilustrar os resultados.
Inclua suas recomendações sobre qual modelo escolheria para ser implementado em um cenário real.

Entregáveis:

Um relatório em PDF com as justificativas solicitadas, fazendo citação aos pontos do artigo.
Link do Colab no relatório. Não esqueça de compartilhar o Colab.

Importante:

Abuse do uso das IAs, use o ChatGPT, Gemini, Perplexity... o que puder para te ajudar a fazer o melhor projeto possível. Mas lembre-se, você é o responsável pelo resultado das IAs, não confie cegamente, pesquise, se certifique de que as IAs não estão respondendo de forma incorreta.

Atividades do cliente nesse projeto:

Última visualização: 07/10/2024 às 13:59

Última interação: 26/09/2024 às 08:33

Informações adicionais

Categoria: Web, Mobile & Software
Subcategoria: Outra - Web, Mobile & Software
Orçamento: Aberto
Nível de experiência: Iniciante
Visibilidade: Público
Propostas: 2
Interessados: 3
Valor Mínimo: R$ 50,00

Cliente

Freelancer vencedor

Propostas (2)
  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

  • Freelancer novo Promovida Aceita Aceita Rejeitada

    Submetido: | Oferta: Privado | Duração estimada: Privado

Nenhuma proposta foi encontrada.

Carregando...
Projetos semelhantes no 99Freelas

Preparar, anotar e treinar OCR com dataset de placas brasileiras - Descrição: Olá, Estou buscando um freelancer experiente em OCR (Reconhecimento Óptico de Caracteres), preferencialmente com conhecimento em PaddleOCR, para preparar, an...

Bot automatizado para casa de apostas - Preciso de um bot que faça operações automaticamente, seguindo minha forma de operar. Portanto, é um bot com configurações específicas, que deve rod...

Criar painel para plataformas de cassinos - Preciso de algum desenvolvedor que desenvolva um painel que possa criar plataformas de cassinos ilimitadas no estilo chinês. Minha estratégia é sempre estar lançando pla...

Criar CRM personalizado em PHP, CSS, HTML e JavaScript - Criar um CRM personalizado em PHP, CSS, HTML e JavaScript puro, com banco de dados em MySQL. Prazo de 30 dias.

Desenvolvimento de website +18 - 1. Resumo do projeto • Título: Desenvolvimento de website completo para divulgação de perfis de profissionais do prazer (incluindo área de membros/assinaturas). &bu...

Carregando...

Carregando...

Pesquisar

FREELANCERS
PROJETOS
Ocorreu um erro inesperado. Caso o erro persista, entre em contato conosco através do e-mail suporte@99freelas.com.br.