Outra - Web, Mobile & Software
| Orçamento: Aberto |
Publicado: |
Propostas: 13
Desenvolver uma inteligência artificial (IA) capaz de navegar, coletar e estruturar dados específicos (descrição, link, preços e datas) de múltiplos sites de leilão online, salvando as informações extraídas em arquivos JSON separados por site.
Objetivos específicos:
• Capacidade de navegação inteligente: A IA deverá ser capaz de acessar e navegar dinamicamente em diferentes estruturas de sites de leilão, identificando as seções relevantes onde as informações dos leilões são apresentadas.
• Extração seletiva de dados: A IA deverá identificar e extrair com precisão os seguintes dados de cada item de leilão encontrado:
• Descrição: O texto descritivo do item leiloado.
• Link: O URL que direciona para a página de detalhes do leilão do item específico.
• Preços: O preço atual, lance inicial (se disponível) e outros preços relevantes (ex: preço de arremate, se já finalizado).
• Datas: A data e hora de início e término do leilão.
• Adaptabilidade a diferentes estruturas de sites: A IA deverá ser projetada para ser adaptável a variações na estrutura HTML e no layout de diferentes sites de leilão, minimizando a necessidade de reconfiguração completa para cada novo site.
• Formato de saída estruturado: Os dados extraídos de cada site de leilão deverão ser salvos em um arquivo JSON separado, onde a estrutura dos dados seja consistente e facilmente processável. A estrutura do JSON deverá refletir cada item de leilão como um objeto com os campos "descricao", "link", "precos" (com subcampos relevantes) e "datas" (com subcampos relevantes).
• Escalabilidade e eficiência: A solução deverá ser projetada com foco em escalabilidade para permitir a adição de novos sites de leilão e o processamento de um grande volume de dados de forma eficiente.
Funcionalidades principais:
• Módulo de configuração de sites: Uma interface (ou arquivo de configuração) onde novos sites de leilão podem ser adicionados, especificando as URLs de entrada.
• Módulo de navegação e identificação: Um componente da IA responsável por explorar as páginas dos sites de leilão e identificar os elementos HTML que contêm as informações relevantes.
• Módulo de extração de dados: Um componente da IA que, com base em regras ou modelos de aprendizado, extrai a descrição, link, preços e datas dos elementos identificados.
• Módulo de estruturação de dados: Um componente que organiza os dados extraídos em um formato JSON padronizado para cada item de leilão.
• Módulo de salvamento de dados: Um componente que salva os dados estruturados em arquivos JSON separados, nomeados de acordo com o site de origem (ex: megaleiloes.json, outro_leilao.json).
• Mecanismo de adaptação (opcional, mas desejável): Implementação de técnicas de aprendizado de máquina ou heurísticas avançadas para que a IA possa aprender padrões e se adaptar automaticamente a pequenas variações na estrutura dos sites, reduzindo a necessidade de intervenção manual constante.
Tecnologias potenciais:
• Linguagens de programação: Python (devido às suas bibliotecas robustas para web scraping e aprendizado de máquina).
• Bibliotecas de web scraping: BeautifulSoup, Scrapy, Selenium (para sites com conteúdo dinâmico).
• Bibliotecas de processamento de linguagem natural (NLP): Para auxiliar na identificação e extração de descrições relevantes.
• Bibliotecas de aprendizado de máquina (ML): TensorFlow, PyTorch, scikit-learn (para o mecanismo de adaptação, se implementado).
• Formato de dados: JSON.
Habilidades desejadas: Python, JSON e Inteligência Artificial.