Redução de amplitude de variáveis categóricas utilizando aprendizado não-supervisionado de máquinas

Nenhuma Miniatura disponível

Data

2023-06-16

Tipo de documento

Estudo de Caso

Título da Revista

ISSN da Revista

Título de Volume

Área do conhecimento

Ciências Exatas e da Terra

Modalidade de acesso

Acesso aberto

Editora

Autores

Costa, Ed Santana Martins
Brandão, Marcos Aurélio dos Santos

Orientador

Ornellas Filho, Eucério Barbosa

Coorientador

Resumo

O estudo da informação tem relação com a qualidade dos dados que serão utilizados para as análises realizadas. Entretanto, manter uma base de dados normalizada durante um tempo prologado pode se tornar um grande desafio, além do custo inerente. Num cenário de uma grande empresa, com operações abrangentes em diversas localidades e uma grande variedade de atividades, a base de dados possui muitos dados categóricos que nem sempre seguem um único padrão, situação muitas vezes negligenciada que acaba por desperdiçar o potencial dos seus dados. Este trabalho, presta-se a encontrar soluções para a normalização e sumarização de dados categóricos através de métodos não-supervisionados de processamento de linguagem natural. Com o objetivo de compreender, na prática, o estado da literatura sobre o tema, foi realizado um estudo de caso com dados relacionados a cargos de funcionários, testando soluções de mercado, como RapidMiner e Weka, assim como algoritmo TaxoGen proposto por Zhang et al.

Palavras-chave

Construção de Taxonomias, Agrupamento de Dados, Extração de Termos, Processamento de Linguagem Natural, Aprendizado Não-supervisionado

Citação