A qualidade e a completude dos dados são determinantes para a construção de modelos preditivos confiáveis a partir de datasets clínicos, impactando diretamente a tomada de decisão em saúde. A presença de dados ausentes é um desafio recorrente e significativo, podendo introduzir vieses e comprometer a precisão e a capacidade de generalização dos modelos de machine learning, especialmente aqueles voltados à predição de riscos clínicos. Frequentemente, as estratégias para lidar com esses dados faltantes, incluindo a decisão de predizer ou excluir informações, carecem de uma fundamentação metodológica sistemática.
Este trabalho tem como objetivo principal propor e detalhar o desenvolvimento de uma metodologia, baseada em machine learning, para a predição de dados ausentes em datasets clínicos. Um componente central desta metodologia é a identificação de limiares adaptativos, informados pelos próprios dados, que orientam o processo de manejo dos valores faltantes. Estes limiares auxiliam na decisão estratégica entre: (1) a exclusão de atributos (colunas) cujo alto volume de dados ausentes poderia prejudicar a performance e a interpretabilidade dos modelos; e (2) a seleção de atributos onde a predição dos dados ausentes, por meio de técnicas de imputação com machine learning, é viável e benéfica.
Espera-se que este trabalho contribua com um framework metodológico e replicável, capacitando pesquisadores e analistas a otimizar o tratamento de dados ausentes. Ao refinar o processo de predição e gerenciamento de dados faltantes, visa-se aprimorar a qualidade dos datasets utilizados em modelos de predição clínica, culminando em predições de risco mais acuradas, confiáveis e com maior potencial de impacto positivo na prática e pesquisa em saúde.