A confiabilidade e disponibilidade de sistemas em nuvem dependem da capacidade de
detectar e diagnosticar anomalias operacionais de forma rápida, precisa e interpretável.
Entretanto, logs de sistemas em ambientes distribuídos apresentam desafios significativos,
como alta dimensionalidade, desbalanceamento extremo entre eventos normais e anômalos,
variabilidade temporal e instabilidade estrutural das mensagens. Esses fatores limitam o
desempenho e a escalabilidade de abordagens convencionais de aprendizado supervisionado.
Esta dissertação propõe o ProLog, um pipeline híbrido que integra aprendizado profundo
contextual, modelagem probabilística sequencial e técnicas de ensemble supervisionado
para detecção e classificação de anomalias em logs de sistemas em nuvem. A arquitetura
combina um Transformer Encoder para geração de embeddings semânticos de eventos, K-
Means para agrupamento não supervisionado de subprocessos, e um Hidden Markov Model
(HMM) para modelagem temporal das transições de estados normais. O trabalho introduz
ainda um normality score relativo, baseado em diferença quadrática média, que permite
contextualizar anomalias em relação ao comportamento normal aprendido, superando
limitações de limiares absolutos fixos.
Para a classificação de tipos de falha, o ProLog utiliza uma abordagem híbrida que combina
features textuais (TF-IDF) e features numéricas semânticas em um Stacking Ensemble
composto por modelos heterogêneos, incluindo Balanced Random Forest, LightGBM e
Logistic Regression.