Comparativo entre diferentes soluções de processamento de dados para Big Data

Carregando...
Imagem de Miniatura

Data

2017

Tipo de documento

Monografia

Título da Revista

ISSN da Revista

Título de Volume

Área do conhecimento

Ciências Exatas e da Terra

Modalidade de acesso

Acesso aberto

Editora

Autores

Silva, Gabriel Benjamim da

Orientador

Morales, Aran Bey Tcholakian

Coorientador

Resumo

A quantidade de dados digitais gerados encontra-se em constante crescimento, por isso cada vez mais se ouve falar do conceito de Big Data. O resultado da ascensão deste tema é a diversidade de soluções que acompanha este crescimento, soluções para facilitar o processamento de dados, paralelismo, processamento em tempo real, tolerância a falha e etc. Diante desta diversidade de soluções para Big Data, este trabalho tem como objetivo estudar 3 dessas ferramentas, Apache Hadoop, Apache Spark e Apache Flink, apontando diferenças, semelhanças e comparando-as por meio de um experimento de contagem de palavras diante de grande volume de dados. Assim, foi possível avaliar o tempo de processamento de cada plataforma trabalhando em modo pseudo-distribuído e em um único cluster, e observar o desempenho de cada plataforma no processamento em lote. Por fim, pode-se avaliar que o objetivo de estudo e comparação de tempo de execução foi atendido. Constatou-se que a ferramenta Spark obteve os melhores resultados para o tipo de operação realizado no experimento, além de servir como base para estudos futuros das ferramentas, utilizando novas formas de processamento e de ambiente de execução.

Palavras-chave

Big data, Processamento em lote, Apache hadoop, Apache spark, Apache flink

Citação