| Resumo: | Atualmente, com o avanço das tecnologias de sequenciação de DNA, a quantidade de dados produzida pela comunidade científica sobre genoma humano tem aumentado de forma exponencial tornando-se mais fácil e barata a sua produção do que o seu armazenamento. Isto revolucionou a forma como agora se compreende a biologia humana e melhorou o estudo sobre como mudanças (variações) no DNA estão envolvidas no risco de desenvolver certas doenças. Porém, para serem revelados novos conhecimentos sobre o genoma, os métodos de análise tradicional não são suficientes nem escaláveis. Esta explosão de dados genómicos é acompanhada com a ascensão do conceito Big Data, grandes volumes de dados disponíveis em vários níveis de complexidade, gerados a diferentes velocidades e muitas vezes sem estrutura e organização. Neste sentido, o processamento convencional de Big Data pode ser aplicado a este domínio genómico, a fim de resolver estes problemas relacionados à heterogeneidade, limpeza e integração de dados. Novas técnicas e tecnologias de processamento de dados surgiram para processar dados de múltiplos formatos e estruturas sem se preocuparem com as restrições associadas a sistemas de base de dados relacionais, destacando-se os sistemas de ficheiros distribuídos, tal como o Hadoop Distributed File System, paradigmas de processamento de dados distribuídos como Hadoop MapReduce e Spark e as base de dados NoSQL, como o MongoDB ou HBase. Para a integração de dados de múltiplas fontes, o Hive é usado como mecanismo de armazenamento distribuído fornecendo capacidade de data warehousing. Esta dissertação adotou técnicas e tecnologias Big Data para a integração de dados genómicos num Big Data Warehouse, designado por Big Genome Warehouse, assente num modelo de dados capaz de integrar diversas fontes de dados sobre o genoma. Com a implementação deste sistema Big Data procura-se responder a questões sobre doenças do foro cardíaco através da implementação de painéis analíticos capazes de ajudar investigadores ou profissionais de saúde na deteção de doenças do foro do miocárdio. A avaliação do trabalho realizado foi concretizada através da verificação do tipo de análises que tais painéis analíticos proporcionam, sendo capazes de dar resposta às questões colocadas pelos utilizadores deste domínio de aplicação. |