Redução de amplitude de variáveis categóricas utilizando aprendizado não-supervisionado de máquinas
Nenhuma Miniatura disponível
Data
2023-06-16
Tipo de documento
Estudo de Caso
Título da Revista
ISSN da Revista
Título de Volume
Área do conhecimento
Ciências Exatas e da Terra
Modalidade de acesso
Acesso aberto
Editora
Autores
Costa, Ed Santana Martins
Brandão, Marcos Aurélio dos Santos
Orientador
Ornellas Filho, Eucério Barbosa
Coorientador
Resumo
O estudo da informação tem relação com a qualidade dos dados que serão utilizados para as análises realizadas. Entretanto, manter uma base de dados normalizada durante um tempo prologado pode se tornar um grande desafio, além do custo inerente. Num cenário de uma grande empresa, com operações abrangentes em diversas localidades e uma grande variedade de atividades, a base de dados possui muitos dados categóricos que nem sempre seguem um único padrão, situação muitas vezes negligenciada que acaba por desperdiçar o potencial dos seus dados. Este trabalho, presta-se a encontrar soluções para a normalização e sumarização de dados categóricos através de métodos não-supervisionados de processamento de linguagem natural. Com o objetivo de compreender, na prática, o estado da literatura sobre o tema, foi realizado um estudo de caso com dados relacionados a cargos de funcionários, testando soluções de mercado, como RapidMiner e Weka, assim como algoritmo TaxoGen proposto por Zhang et al.
Palavras-chave
Construção de Taxonomias, Agrupamento de Dados, Extração de Termos, Processamento de Linguagem Natural, Aprendizado Não-supervisionado