O rápido avanço da tecnologia, sobretudo nas instituições de ensino, tem dado origem a
vastos volumes de dados que, por meio do processo de Descoberta de Conhecimento em
Bancos de Dados, têm o potencial de proporcionar consideráveis benefícios a instituições,
estudantes, professores e colaboradores. Este estudo se concentra na aplicação desse processo
para a previsão da evasão escolar, enfocando uma situação em que os conjuntos de dados
podem não ser tão extensos quando considerados em um contexto de cursos individuais. No
entanto, quando esses conjuntos são agrupados com outros que compartilham características
semelhantes, podem aprimorar significativamente a capacidade preditiva. Para atingir
esse objetivo, adotou-se uma abordagem de duas etapas em cascata. Na primeira etapa,
uma abordagem não supervisionada de clusterização foi empregada, visando agrupar
cursos com características afins. A segunda etapa, por sua vez, empregou uma técnica
supervisionada de classificação para criar modelos de predição de evasão. Esses modelos
foram criados tanto de forma individualizada para cada curso como a partir de dados de
cursos agrupados, seguindo a estrutura definida pelo algoritmo de clusterização da etapa
anterior. Essa abordagem permitiu uma comparação direta entre os modelos. Além disso, a
temporalidade dos dados foi levada em consideração, com a divisão dos dados em períodos,
do 1º ao 8º, sendo o último, na maioria dos cursos, o semestre de conclusão esperado. Os
resultados obtidos destacam a eficácia da utilização de agrupamentos de cursos por meio
da clusterização para otimizar a capacidade preditiva dos modelos de evasão escolar.