Author(s): Pires, Francisco Miguel Marques
Date: 2018
Persistent ID: http://hdl.handle.net/10362/33951
Origin: Repositório Institucional da UNL
Subject(s): Big Data; Data Lake; Hadoop; Viticultura; Portugal
Author(s): Pires, Francisco Miguel Marques
Date: 2018
Persistent ID: http://hdl.handle.net/10362/33951
Origin: Repositório Institucional da UNL
Subject(s): Big Data; Data Lake; Hadoop; Viticultura; Portugal
Project Work presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Information Systems and Technologies Management
O volume de dados criado pelas inúmeras fontes tem aumentado a um nível visivelmente crescente. No âmbito de Big Data, o setor vitícola não é exceção, englobando uma grande quantidade de dados de diferentes tipos para análise, desde dados meteorológicos, dados sensoriais ou até dados do mercado de venda. Com este projeto pretende-se implementar uma arquitetura moderna de dados cujo principal componente é o Data lake. A ideia base consiste em ter um único repositório com dados do setor vitícola, de forma a termos uma visão centrada dos dados numa única plataforma. Este desafio consiste em identificar as diferentes fontes de dados necessárias para a elaboração do data lake, as suas características, incluindo a conceção de desenho e implementação da arquitetura, os processos existentes no data lake, e a exploração das tecnologias pertencentes ao ecossistema Hadoop que melhor se adaptam aos dados.
The volume of data created by innumerous sources has increased at an unprecedented rate. In Big Data, the wine sector is no exception, encompassing a large amount of data of different types for analysis, from meteorological data, sensory data or even wine market data. With this project, is intended to implement a modern data architecture whose main component is a Data lake. The basic idea is to have a single repository with data from the wine sector, so that we have a focused view of the data on a single platform. This challenge consists in identifying the different sources of data required for the elaboration of the data lake, its characteristics, including the design and implementation of the architecture, the existing processes in the data lake, and the exploitation of technologies belonging to the Hadoop ecosystem that best adapt to the data.