Busca semântica em documentos da área biomédica relacionados com COVID-19

dc.contributor.advisorCeci, Flávio
dc.contributor.authorLara, John
dc.contributor.authorLobo, Giovanni
dc.coverage.spatialFlorianópolispt_BR
dc.date.accessioned2022-01-14T18:30:29Z
dc.date.available2022-01-14T18:30:29Z
dc.date.issued2021-12-14
dc.description.abstractSistemas de busca de informação tem grande importância na área biomédica, na qual os repositórios de publicações científicas armazenam volumes gigantescos de documentos. Junto aos desafios globais apresentados pelo Covid-19 somou-se a necessidade de criar alternativas eficientes para recuperar informação útil no universo de publicações geradas sobre esta doença. Entender a necessidade de informação de um usuário que realiza uma consulta em um sistema de recuperação de informação e selecionar, a partir de índices que tentam sintetizar o conteúdo de cada documento, aqueles documentos que têm mais relevância para a necessidade do usuário não é uma tarefa fácil. Diversos modelos matemáticos podem ser utilizados nas máquinas de busca. Entender o contexto dos termos nos documentos é muito importante para realizar uma busca por significado. Dentre as representações do conhecimento no domínio biomédico, as ontologias podem ser muito úteis para aumentar a eficiência de buscadores semânticos. Neste projeto desenvolvemos um buscador semântico para recuperar documentos em um corpus específico para Covid-19, o CORD-19, utilizando para isso o apoio de uma representação do conhecimento simplificada e a biblioteca python spaCy para recuperar entidades nomeadas nos documentos. Os índices invertidos foram criados a partir de uma imagem do Elasticsearch instanciada no Google Cloud Plataform. A fim de criar vetores densos de representação para análise de similaridade contextual foi utilizada o framework de modelo de linguagem pré-treinado sentence-transformers. A funcionalidade de busca semântica do projeto permitiu a recuperação de um número maior de documentos relevantes. Concluindo, a utilização de representações do conhecimento no domínio biomédico associada a modelos de linguagem pré-treinados que permitem associar a análise de contexto a nível de palavras e sentenças podem aumentar a relevância dos resultados de um sistema de recuperação de informação na área biomédica.pt
dc.format.extent67pt_BR
dc.identifier.urihttps://repositorio.animaeducacao.com.br/handle/ANIMA/20862
dc.language.isoptpt_BR
dc.rightsAtribuição-NãoComercial-SemDerivados 3.0 Brasil*
dc.rightsAtribuição-NãoComercial-SemDerivados 3.0 Brasil*
dc.rights.urihttp://creativecommons.org/licenses/by-nc-nd/3.0/br/*
dc.subjectBusca semânticapt_BR
dc.subjectRecuperação da informaçãopt_BR
dc.subjectBiomédicopt_BR
dc.subjectCovid-19pt_BR
dc.subjectCORD-19pt_BR
dc.subjectÍndice invertidopt_BR
dc.subjectEntidades nomeadaspt_BR
dc.subjectSpaCypt_BR
dc.subjectSimilaridadept_BR
dc.subjectSentence-transformerspt_BR
dc.titleBusca semântica em documentos da área biomédica relacionados com COVID-19pt_BR
dc.typeMonografiapt_BR
local.author.cursoSistemas de Informaçãopt_BR
local.author.unidadeUNISUL / Florianópolispt_BR
local.dateissued.semester2pt_BR
local.rights.policyAcesso abertopt_BR
local.subject.areaCiências Exatas e da Terrapt_BR
local.subject.areaanimaTI & Computaçãopt_BR

Arquivos

Pacote Original
Agora exibindo 1 - 1 de 1
Carregando...
Imagem de Miniatura
Nome:
TCC_Giovanni_John_version_4 (1).pdf
Tamanho:
2.7 MB
Formato:
Adobe Portable Document Format
Licença do Pacote
Agora exibindo 1 - 1 de 1
Nenhuma Miniatura disponível
Nome:
license.txt
Tamanho:
1.15 KB
Formato:
Item-specific license agreed upon to submission
Descrição: