Busca semântica em documentos da área biomédica relacionados com COVID-19
dc.contributor.advisor | Ceci, Flávio | |
dc.contributor.author | Lara, John | |
dc.contributor.author | Lobo, Giovanni | |
dc.coverage.spatial | Florianópolis | pt_BR |
dc.date.accessioned | 2022-01-14T18:30:29Z | |
dc.date.available | 2022-01-14T18:30:29Z | |
dc.date.issued | 2021-12-14 | |
dc.description.abstract | Sistemas de busca de informação tem grande importância na área biomédica, na qual os repositórios de publicações científicas armazenam volumes gigantescos de documentos. Junto aos desafios globais apresentados pelo Covid-19 somou-se a necessidade de criar alternativas eficientes para recuperar informação útil no universo de publicações geradas sobre esta doença. Entender a necessidade de informação de um usuário que realiza uma consulta em um sistema de recuperação de informação e selecionar, a partir de índices que tentam sintetizar o conteúdo de cada documento, aqueles documentos que têm mais relevância para a necessidade do usuário não é uma tarefa fácil. Diversos modelos matemáticos podem ser utilizados nas máquinas de busca. Entender o contexto dos termos nos documentos é muito importante para realizar uma busca por significado. Dentre as representações do conhecimento no domínio biomédico, as ontologias podem ser muito úteis para aumentar a eficiência de buscadores semânticos. Neste projeto desenvolvemos um buscador semântico para recuperar documentos em um corpus específico para Covid-19, o CORD-19, utilizando para isso o apoio de uma representação do conhecimento simplificada e a biblioteca python spaCy para recuperar entidades nomeadas nos documentos. Os índices invertidos foram criados a partir de uma imagem do Elasticsearch instanciada no Google Cloud Plataform. A fim de criar vetores densos de representação para análise de similaridade contextual foi utilizada o framework de modelo de linguagem pré-treinado sentence-transformers. A funcionalidade de busca semântica do projeto permitiu a recuperação de um número maior de documentos relevantes. Concluindo, a utilização de representações do conhecimento no domínio biomédico associada a modelos de linguagem pré-treinados que permitem associar a análise de contexto a nível de palavras e sentenças podem aumentar a relevância dos resultados de um sistema de recuperação de informação na área biomédica. | pt |
dc.format.extent | 67 | pt_BR |
dc.identifier.uri | https://repositorio.animaeducacao.com.br/handle/ANIMA/20862 | |
dc.language.iso | pt | pt_BR |
dc.rights | Atribuição-NãoComercial-SemDerivados 3.0 Brasil | * |
dc.rights | Atribuição-NãoComercial-SemDerivados 3.0 Brasil | * |
dc.rights.uri | http://creativecommons.org/licenses/by-nc-nd/3.0/br/ | * |
dc.subject | Busca semântica | pt_BR |
dc.subject | Recuperação da informação | pt_BR |
dc.subject | Biomédico | pt_BR |
dc.subject | Covid-19 | pt_BR |
dc.subject | CORD-19 | pt_BR |
dc.subject | Índice invertido | pt_BR |
dc.subject | Entidades nomeadas | pt_BR |
dc.subject | SpaCy | pt_BR |
dc.subject | Similaridade | pt_BR |
dc.subject | Sentence-transformers | pt_BR |
dc.title | Busca semântica em documentos da área biomédica relacionados com COVID-19 | pt_BR |
dc.type | Monografia | pt_BR |
local.author.curso | Sistemas de Informação | pt_BR |
local.author.unidade | UNISUL / Florianópolis | pt_BR |
local.dateissued.semester | 2 | pt_BR |
local.rights.policy | Acesso aberto | pt_BR |
local.subject.area | Ciências Exatas e da Terra | pt_BR |
local.subject.areaanima | TI & Computação | pt_BR |