Descrição do Projeto:
Sou pesquisadora e procuro alguém familiarizado com ciência de dados, pipelines de ETL (ingest) e harmonização de grandes volumes de dados clínicos e hospitalares com os padrões SNOMED-CT, LOINC e HPO (Doenças Raras).
Precisamos de uma ferramenta CLI (GUI opcional, dependendo do custo) para ingest, harmonização e controle de qualidade.
IMPORTANTE:
- Não queremos soluções de bases de dados (SQL, noSQL, PostgreSQL, etc.). Infelizmente, isso está fora do nosso escopo.
- NÃO queremos ferramentas na rede ou web. Os dados possuem grau de sigilo alto e devem ser acessados através — APENAS — do link seguro que iremos providenciar, e em computadores, preferencialmente, sem acesso à Internet (ícone de Internet ligável e desligável é aceito pelas normas).
- Compartilharemos as normas de segurança de dados, mas nos responsabilizamos 100%. Portanto, você NUNCA terá qualquer problema nesse sentido.
Requisitos fundamentais:
- Contato e entendimento de variáveis clínicas e hospitalares.
- Familiaridade com bibliotecas do SUS.
- Familiaridade com ingest (pipelines ETL).
- Entendimento do que é uma harmonização de dados.
- Entendimento do que são dimensões de qualidade de dados (completude, representatividade, balanceamento, relevância, segurança, manutenibilidade, confiabilidade, plausibilidade, etc.).
Requisitos preferíveis:
- Experiência com várias ontologias como OMOP, SNOMED-CT, LOINC e HPO.
- Experiência com harmonização de dados clínicos e médicos.
- Experiência com dados volumosos (sem uso de bases de dados; dados podem variar de 1 TB a 50 TB, acesso remoto a dados brutos em TSV — texto).
Requisitos interessantes:
- Mestrado ou doutoramento em Ciência de Dados, Computação, Biomedicina, Medicina ou equivalente.
- Caso seja da área de biologia ou medicina, comprovação de desenvolvimento técnico de softwares.
- Caso seja da área de desenvolvimento de software, demonstrar, ao menos, interesse pelo desenvolvimento de sistemas complexos.
Aviso de antemão:
- É esperado um tempo inicial para que você entenda a complexidade (variáveis com nomes difíceis de interpretar, variáveis que não batem entre si, criação de modelo canônico–mapeamento–regras próprio, dificuldade na mensuração de certas dimensões de qualidade, etc.).
- É esperado um desenvolvimento em curva exponencial, dada a dificuldade prática encontrada no decorrer do sistema.
- Sugerimos propostas com 8 semanas, caso se trabalhe 2 horas por dia (ou equivalente, baseado em sua disponibilidade).
- Sugerimos fortemente que leia um pouco ou analise alguma base de dados ou software que realize harmonizações antes de aceitar esta proposta.
- Avisamos explicitamente que o problema parece fácil, por não requerer muitas tecnologias diferentes, mas se torna difícil quando se entra em contato com as tabelas e com a forma como diferentes enfermeiros, biólogos e/ou médicos inserem informações no sistema.
Exemplo:
- Adiciono aqui um arquivo de texto com as 200 primeiras linhas (de >4Bi) de apenas um campo (de ~8.520) de uma tabela (de muitas) de um estudo (de 314, nesse contexto) de um paciente (de ~15.000 neste hospital) — e, nesse contexto, provavelmente mapearia para 20 campos durante a harmonização — exatamente como você vai encontrar.
- Se você entender do que se trata o campo em anexo, já tiver visto entradas do gênero, souber limpar (IA, heurística ou aprendizado) e entender que existem um grande número de variáveis parecidas (a maioria é booleana ou múltipla escolha; a que escolhi está entre as piores que você verá), então este trabalho é para você.
Temos uma boa verba; escolheremos o freelancer pelo currículo e pela qualidade da resposta mais do que pelo preço em si.