Ceci, FlávioLara, JohnLobo, Giovanni2022-01-142022-01-142021-12-14https://repositorio.animaeducacao.com.br/handle/ANIMA/20862Sistemas de busca de informação tem grande importância na área biomédica, na qual os repositórios de publicações científicas armazenam volumes gigantescos de documentos. Junto aos desafios globais apresentados pelo Covid-19 somou-se a necessidade de criar alternativas eficientes para recuperar informação útil no universo de publicações geradas sobre esta doença. Entender a necessidade de informação de um usuário que realiza uma consulta em um sistema de recuperação de informação e selecionar, a partir de índices que tentam sintetizar o conteúdo de cada documento, aqueles documentos que têm mais relevância para a necessidade do usuário não é uma tarefa fácil. Diversos modelos matemáticos podem ser utilizados nas máquinas de busca. Entender o contexto dos termos nos documentos é muito importante para realizar uma busca por significado. Dentre as representações do conhecimento no domínio biomédico, as ontologias podem ser muito úteis para aumentar a eficiência de buscadores semânticos. Neste projeto desenvolvemos um buscador semântico para recuperar documentos em um corpus específico para Covid-19, o CORD-19, utilizando para isso o apoio de uma representação do conhecimento simplificada e a biblioteca python spaCy para recuperar entidades nomeadas nos documentos. Os índices invertidos foram criados a partir de uma imagem do Elasticsearch instanciada no Google Cloud Plataform. A fim de criar vetores densos de representação para análise de similaridade contextual foi utilizada o framework de modelo de linguagem pré-treinado sentence-transformers. A funcionalidade de busca semântica do projeto permitiu a recuperação de um número maior de documentos relevantes. Concluindo, a utilização de representações do conhecimento no domínio biomédico associada a modelos de linguagem pré-treinados que permitem associar a análise de contexto a nível de palavras e sentenças podem aumentar a relevância dos resultados de um sistema de recuperação de informação na área biomédica.67ptAtribuição-NãoComercial-SemDerivados 3.0 BrasilAtribuição-NãoComercial-SemDerivados 3.0 BrasilBusca semânticaRecuperação da informaçãoBiomédicoCovid-19CORD-19Índice invertidoEntidades nomeadasSpaCySimilaridadeSentence-transformersBusca semântica em documentos da área biomédica relacionados com COVID-19Monografia