Comparativo entre diferentes soluções de processamento de dados para Big Data
Carregando...
Arquivos
Data
2017
Tipo de documento
Monografia
Título da Revista
ISSN da Revista
Título de Volume
Área do conhecimento
Ciências Exatas e da Terra
Modalidade de acesso
Acesso aberto
Editora
Autores
Silva, Gabriel Benjamim da
Orientador
Morales, Aran Bey Tcholakian
Coorientador
Resumo
A quantidade de dados digitais gerados encontra-se em constante crescimento, por isso cada vez mais se ouve falar do conceito de Big Data. O resultado da ascensão deste tema é a diversidade de soluções que acompanha este crescimento, soluções para facilitar o processamento de dados, paralelismo, processamento em tempo real, tolerância a falha e etc. Diante desta diversidade de soluções para Big Data, este trabalho tem como objetivo estudar 3 dessas ferramentas, Apache Hadoop, Apache Spark e Apache Flink, apontando diferenças, semelhanças e comparando-as por meio de um experimento de contagem de palavras diante de grande volume de dados. Assim, foi possível avaliar o tempo de processamento de cada plataforma trabalhando em modo pseudo-distribuído e em um único cluster, e observar o desempenho de cada plataforma no processamento em lote. Por fim, pode-se avaliar que o objetivo de estudo e comparação de tempo de execução foi atendido. Constatou-se que a ferramenta Spark obteve os melhores resultados para o tipo de operação realizado no experimento, além de servir como base para estudos futuros das ferramentas, utilizando novas formas de processamento e de ambiente de execução.
Palavras-chave
Big data, Processamento em lote, Apache hadoop, Apache spark, Apache flink