Abordagem Semi-Supervisionada para Rotulação de Dados a partir de Dados Não-Rotulados
Aprendizado Semissupervisionado. Classificação. Rotulação. Agrupamento.
Na tarefa de classificação utilizando algoritmos de Aprendizado de Máquina, considera-se a existência de uma base de dados chamada conjunto de treinamento. Esse conjunto possui exemplos que são rotulados e utilizados no treinamento do classificador. Sendo que, esse conjunto deve ter um total de exemplos significativo para que, após o treinamento, o classificador tenha um desempenho satisfatório.Porém, na maioria dos casos reais, obter esse conjunto de treinamento com a quantidade de exemplos suficientes para induzir um classificador no treinamento, pode ser oneroso, pois é necessário que seja realizada uma rotulação dos dados por um especialista no problema em questão. Exemplos não rotulados são mais fáceis de serem coletados em comparação aos que possuem rótulos. Estudos na literatura mostram o interesse da comunidade científica em uma nova abordagem de aprendizado chamada de semissupervisionado. Neste novo tipo de aprendizado trabalha em um cenário em que existe um conjunto de dados rotulados, insuficiente para treinar um classificador, juntamente com um outro conjunto com dados não rotulados, que também disponível no treinamento. Neste trabalho mostra um estudo experimental de algoritmos semissupervisionados encontrados na literatura. O experimento foi realizado utilizando 5 base de dados. Sendo que 4 destas bases pode ser encontradas no repositório de aprendizado de máquina (http://archive.ics.uci.edu/ml/). Além disso, com o estudo experimental, foi possível analisar os métodos semissupervisionados e propor uma abordagem que visa rotular dados a partir de um pequeno conjunto rotulado. Esse método trata-se da combinação de um classificador e um agrupador para realizar a tarefa de classificação.