Publication

Processamento analítico de dados em contextos de Big Data com o Druid

Bibliographic Details
Summary:	Ao longo dos últimos anos tem-se assistido a um crescimento enorme na utilização de dispositivos como por exemplo smartphones, tablets e sensores. Esta tendência, aliada ao facto de se guardarem praticamente todas as interações com as aplicações e serviços disponíveis no mundo, origina a geração de vastas quantidades de dados diariamente, a grande velocidade e provenientes de diversas fontes. Simultaneamente, a pressão causada pelo ambiente intensamente competitivo, no qual as organizações estão inseridas também tem vindo a crescer, obrigando-as a fazer cada vez mais e melhor com cada vez menos recursos à sua disposição. Posto isto, urge que as organizações tirem o melhor partido possível das tecnologias à disposição, a fim de melhorar a sua produtividade, eficiência e tomada de decisão. Assim, importa-lhes perceber os contextos para os quais a utilização singular das tecnologias tradicionais já não é adequada, sendo necessário alicerçar os seus processos em tecnologias Big Data ou na combinação destas com as tecnologias tradicionais. O tradicional Data Warehouse (DW) é um exemplo da inadequação das tecnologias tradicionais para lidar com características como o volume, velocidade e variedade comummente associadas ao Big Data, o que obriga as organizações a optar por outras estratégias para ter uma visão central da sua informação. Essas estratégias passam por dotar os DW com as tecnologias Big Data, originando-se um Big Data Warehouse (BDW), que tem objetivos semelhantes ao DW e que é capaz de suprimir as suas limitações. Além disto, as organizações necessitam não só de analisar dados históricos, mas também dados em Real-Time, integrados num único repositório denominado por Real-Time Big Data Warehouse (RTBDW). Uma decisão em tempo útil, em contexto militar, por exemplo, pode salvar a vida de milhares de pessoas. Nesta dissertação, enquadrada num projeto de investigação em colaboração entre a Bosch e a Universidade do Minho, explora-se e avalia-se o Druid no processamento analítico de vastas quantidades de dados, aplicando-se diferentes estratégias de modelação, segment granularity, query granularity e hashed partitions, a fim de perceber se estas propriedades influenciam o desempenho e o espaço necessário de armazenamento. Para efetuar os diferentes testes de desempenho é utilizado o Star Schema Benchmark. Os resultados demonstram que a aplicação destas propriedades pode otimizar o desempenho, sendo que os cenários em que se utilizam partições, normalmente, alcançam menores tempos no processamento das queries avaliadas. É ainda proposta uma arquitetura de RTBDW funcional, em torno do Druid, validada recorrendo a um caso de demonstração.
Main Authors:	Correia, José Manuel da Silva
Subject:	Big data Big data warehouse Druid OLAP Real-time Engenharia e Tecnologia::Outras Engenharias e Tecnologias
Year:	2018
Country:	Portugal
Document type:	master thesis
Access type:	open access
Associated institution:	Universidade do Minho
Language:	Portuguese
Origin:	RepositóriUM - Universidade do Minho

Description
Summary:	Ao longo dos últimos anos tem-se assistido a um crescimento enorme na utilização de dispositivos como por exemplo smartphones, tablets e sensores. Esta tendência, aliada ao facto de se guardarem praticamente todas as interações com as aplicações e serviços disponíveis no mundo, origina a geração de vastas quantidades de dados diariamente, a grande velocidade e provenientes de diversas fontes. Simultaneamente, a pressão causada pelo ambiente intensamente competitivo, no qual as organizações estão inseridas também tem vindo a crescer, obrigando-as a fazer cada vez mais e melhor com cada vez menos recursos à sua disposição. Posto isto, urge que as organizações tirem o melhor partido possível das tecnologias à disposição, a fim de melhorar a sua produtividade, eficiência e tomada de decisão. Assim, importa-lhes perceber os contextos para os quais a utilização singular das tecnologias tradicionais já não é adequada, sendo necessário alicerçar os seus processos em tecnologias Big Data ou na combinação destas com as tecnologias tradicionais. O tradicional Data Warehouse (DW) é um exemplo da inadequação das tecnologias tradicionais para lidar com características como o volume, velocidade e variedade comummente associadas ao Big Data, o que obriga as organizações a optar por outras estratégias para ter uma visão central da sua informação. Essas estratégias passam por dotar os DW com as tecnologias Big Data, originando-se um Big Data Warehouse (BDW), que tem objetivos semelhantes ao DW e que é capaz de suprimir as suas limitações. Além disto, as organizações necessitam não só de analisar dados históricos, mas também dados em Real-Time, integrados num único repositório denominado por Real-Time Big Data Warehouse (RTBDW). Uma decisão em tempo útil, em contexto militar, por exemplo, pode salvar a vida de milhares de pessoas. Nesta dissertação, enquadrada num projeto de investigação em colaboração entre a Bosch e a Universidade do Minho, explora-se e avalia-se o Druid no processamento analítico de vastas quantidades de dados, aplicando-se diferentes estratégias de modelação, segment granularity, query granularity e hashed partitions, a fim de perceber se estas propriedades influenciam o desempenho e o espaço necessário de armazenamento. Para efetuar os diferentes testes de desempenho é utilizado o Star Schema Benchmark. Os resultados demonstram que a aplicação destas propriedades pode otimizar o desempenho, sendo que os cenários em que se utilizam partições, normalmente, alcançam menores tempos no processamento das queries avaliadas. É ainda proposta uma arquitetura de RTBDW funcional, em torno do Druid, validada recorrendo a um caso de demonstração.