Publicação

Distribuição de tarefas ETL em ambientes GRID

Ver documento

Detalhes bibliográficos
Resumo:Um Data Warehouse (DW) armazena dados de forma integrada, orientada por assunto e consistente, o que o torna, assim, num repositório de dados ideal para suporte a processos de tomada de decisões. No entanto, para manter este repositório devidamente actualizado é necessário aceder a um conjunto variado de sistemas fonte, transformar a informação que neles é colectada, de acordo com os requisitos do negócio, com vista a uma alimentação adequada do DW. Estas tarefas, geralmente designadas por Extracção, Transformação e Carregamento, são normalmente complexas, requerem grandes recursos computacionais e operam numa janela temporal limitada. Neste artigo será exposta uma abordagem não convencional para a execução destas tarefas, tirando partido do poder computacional existente numa organização, através da utilização de uma GRID, e apelando à abstracção que uma linguagem de manipulação de dados como a Álgebra Relacional nos providencia, tendo como suporte o standard de representação de dados presente na linguagem XML.
Autores principais:Santos, Vasco
Outros Autores:Oliveira, Bruno; Silva, Rui; Belo, Orlando
Assunto:Sistemas de data warehousing Processos ETL Processamento distribuído Computação em GRID Álgebra relacional JAVA XM
Ano:2011
País:Portugal
Tipo de documento:comunicação em conferência
Tipo de acesso:acesso restrito
Instituição associada:Universidade do Minho
Idioma:português
Origem:RepositóriUM - Universidade do Minho
Descrição
Resumo:Um Data Warehouse (DW) armazena dados de forma integrada, orientada por assunto e consistente, o que o torna, assim, num repositório de dados ideal para suporte a processos de tomada de decisões. No entanto, para manter este repositório devidamente actualizado é necessário aceder a um conjunto variado de sistemas fonte, transformar a informação que neles é colectada, de acordo com os requisitos do negócio, com vista a uma alimentação adequada do DW. Estas tarefas, geralmente designadas por Extracção, Transformação e Carregamento, são normalmente complexas, requerem grandes recursos computacionais e operam numa janela temporal limitada. Neste artigo será exposta uma abordagem não convencional para a execução destas tarefas, tirando partido do poder computacional existente numa organização, através da utilização de uma GRID, e apelando à abstracção que uma linguagem de manipulação de dados como a Álgebra Relacional nos providencia, tendo como suporte o standard de representação de dados presente na linguagem XML.