Document details

Estudo de tecnologias para sistemas de Big Data

Author(s): Sobreiro , Saulo Abel Ramos

Date: 2018

Persistent ID: http://hdl.handle.net/10400.22/11936

Origin: Repositório Científico do Instituto Politécnico do Porto

Subject(s): Big Data; Apache Hadoop; Arquitetura Lambda; Arquitetura Kappa; Lambda Architecture; Kappa Architecture; Sistemas Computacionais


Description

Big Data é um conceito da moda, consequência da evolução tecnológica dos últimos anos, que tem potenciado o aumento do volume de dados gerados diariamente. As empresas têm cada vez mais noção da oportunidade que é gerar valor dos dados que lhe pertencem, mas isso implica conseguir dar resposta às características dos dados, que se têm tornado intratáveis pelas tecnologias tradicionais. Uma solução para responder a esses desafios é o ecossistema Hadoop, que disponibiliza várias tecnologias dedicadas a resolver problemas específicos no âmbito dos desafios de Big Data. Com o intuito de produzir um estudo de tecnologias de Big Data, é aqui feita uma análise teórica do ecossistema, de quais as Stacks de tecnologias mais comuns e de como estas são integradas num sistema Hadoop. Posteriormente, e partindo de um caso de uso baseado num sistema para processamento de dados de sensores foi feito um estudo teórico de quais as tecnologias mais adequadas a usar e qual a melhor arquitetura a seguir. Esta análise revelou-se, em termos teóricos, inconclusiva. Desta forma, surgiu a necessidade de fazer testes práticos de quatro combinações diferentes entre tecnologias de processamento - onde se considerou Spark Streaming e Storm – e arquitetura seguida - onde se considerou a arquitetura Lambda e a arquitetura Kappa. O objetivo dos testes foi identificar qual a combinação com melhor desempenho e menor consumo de recursos para o caso de uso em questão. Os testes realizados revelaram, entre outros, que o Spark seguindo uma arquitetura Kappa é a abordagem com melhor relação desempenho – recursos consumidos.

The technological evolution we’ve been witnessing these last years has increased dramatically the volume of data generated every single day and, therefore, has turned Big Data into a trendy concept. Companies are also increasingly aware of the potential value of the data they have in their hands. However, treating the volume of data in question means going further than the traditional technologies, which no longer can be used in this context. A solution for this problema is the Hadoop ecosystem, which is made by several dedicated technologies developed specifically to tackle Big Data problems. To study the Big Data technologies available today, this paper starts by presenting a theoretical analysis of the Hadoop ecosystem, of which are its most common Stacks and how they are integrated with the system itself. For that, we used a case study based on a data sensor processing system and previous published works to determine the technologies most suitable for this case and the best possible architecture. This theoretical analysis has, however, produced inconclusive results. Therefore, the opportunity arose to test four different combinations testing two processing technologies - Spark Streaming and Storm – and two architectures – Lambda and Kappa. The aim of these tests was to identify which processing technology/architecture combination has the best performance and uses the least amount of resources for the case in question. The results show us, among other conclusions, that the Spark-Kappa approach is the one with the best performance/resources ratio.

Document Type Master thesis
Language Portuguese
Advisor(s) Duarte, Fernando Jorge Ferreira
Contributor(s) Repositório Científico do Instituto Politécnico do Porto
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents