Processamento paralelo e distribuído baseado em workflows

Publicação

por Fernandes, Pedro de Oliveira

Origem: Repositório Científico do Instituto Politécnico de Lisboa

As infraestruturas de computação distribuídas de larga escala suportadas em virtualização e plataformas de computação na nuvem (Cloud) permitem a execução de aplicações de processamento de dados modeladas por decomposição em múltiplas tarefas que interagem entre si, segundo modelos representados por grafos, usando um paradigma designado por Scientific Workflows. Na última década, surgiram imensas propostas de sistemas de workflow. No entanto, apesar da maior ou menor popularidade de alguns sistemas, continuam a persistir algumas questões em aberto, passíveis de serem melhoradas. O trabalho descrito neste documento é uma contribuição para encontrar respostas para algumas questões em aberto, propondo um modelo de workflow com as seguintes características: i) descentralização do controlo de execução das múltiplas tarefas de um workflow; ii) execução de um workflow com múltiplas iterações; iii) possibilidade de especificar réplicas de uma tarefa para suportar equilíbrio de carga; iv) encapsulamento de tarefas em containers, possibilitando a sua execução em múltiplos nós computacionais; v) especificação flexível de workflows independentemente da infraestrutura tecnológica de execução. A partir do modelo proposto é apresentada uma arquitetura conceptual de suporte ao modelo, culminado com o desenvolvimento de um protótipo que permite experimentação e validação do modelo, com estudo de casos de aplicações concretas modeladas segundo o paradigma de workflow. O protótipo de experimentação executa-se numa infraestrutura computacional que utiliza máquinas virtuais, formando um cluster virtual com múltiplos nós computacionais (máquinas virtuais) alojados na Google Cloud Platform. Os múltiplos nós computacionais partilham ficheiros através do sistema de ficheiros distribuídos Gluster. As múltiplas tarefas de um workflow, ativadas no contexto de componentes autónomas designadas Activities, executam-se encapsuladas em containers Docker, permitindo uma grande flexibilidade de desenvolvimento e reutilização dessas Tasks em múltiplos casos de aplicação. O trabalho termina com uma forte componente experimental de casos concretos de aplicação, nomeadamente uma aplicação que permite detetar objetos e textos em imagens, uma aplicação que implementa o modelo MapReduce para realizar o histograma de ocorrência de palavras em ficheiros de texto. A experimentação com o protótipo implementado permite concluir que o modelo é suficientemente genérico, desacoplado de detalhes tecnológicos, permitindo o desenvolvimento de workflows em múltiplas áreas das ciências e engenharia.

2023 dissertação de mestrado Portugal acesso aberto

2

Autonomic activities in the execution of scientific workflows: evaluation of the AWARD framework

Publicação

por Assunção, Luis

Outros Autores: Gonçalves, Carlos Jorge de Sousa; Cunha, José C.

Origem: Repositório Científico do Instituto Politécnico de Lisboa

Workflows have been successfully applied to express the decomposition of complex scientific applications. However the existing tools still lack adequate support to important aspects namely, decoupling the enactment engine from tasks specification, decentralizing the control of workflow activities allowing their tasks to run in distributed infrastructures, and supporting dynamic workflow reconfigurations. We present the AWARD (Autonomic Workflow Activities Reconfigurable and Dynamic) model of computation, based on Process Networks, where the workflow activities (AWA) are autonomic processes with independent control that can run in parallel on distributed infrastructures. Each AWA executes a task developed as a Java class with a generic interface allowing end-users to code their applications without low-level details. The data-driven coordination of AWA interactions is based on a shared tuple space that also enables dynamic workflow reconfiguration. For evaluation we describe experimental results of AWARD workflow executions in several application scenarios, mapped to the Amazon (Elastic Computing EC2) Cloud.

2012 documento de conferência Portugal acesso aberto

3

Specializing agents on data integration in a data warehousing system environment

Publicação

por Gonçalves, Joaquim

Outros Autores: Lourenço, Anália Maria Garcia; Belo, Orlando

Origem: RepositóriUM - Universidade do Minho

Data selection, extraction and processing are frequent tasks in enterprise information systems. Their relevance emerged from the information requirements of enterprise managers to have all the possible information about their working area permanently available. They try to reach important pieces of data that will allow the extraction of useful and valuable knowledge. This knowledge can be applied in improving managers' performance inside the organization, or even in foreseeing market opportunities. Nowadays competitiveness between enterprises makes such process crucial. It is necessary, and convenient, to provide decision-makers with all possible elements that might help them in their daily activities. In fact, most of the enterprises' decision-making processes need to be global and effective, as the enterprises' success depends on it. However, the data maintained in their operational systems is not commonly arranged according to their analytical needs and management perspectives. Usually, the data is structured and treated aiming to support operational tasks and backup daily activities. Obviously, some problems arise when it is intended to orient such data to analytical purposes. Many times its structure has to be rebuilt and its quality needs to be improved. Due to today's data growth, selecting, gathering and treating data tend to be very complex and time-consuming tasks. In order to make these tasks easier, more reliable and faster, a specialized agentbased tool was developed. It was designed and conceived to support such kind of tasks and provides a set of special means of bridging to integrate operational data into specific data warehousing systems. This paper describes its main functional architecture and components, emphasizing the aspects related to its development and implementation.

2001 comunicação em conferência Portugal acesso restrito

4

Makefile: parallel dependency specification language

Publicação

por Simões, Alberto

Outros Autores: Fonseca, Rúben; Almeida, J. J.

Origem: RepositóriUM - Universidade do Minho

Some processes are not easy to be programmed from scratch for parallel machines (clusters), but can be easily split on simple steps. Makefile::Parallel is a tool which lets users to specify how processes depend on each other. The language syntax resembles the well known Makefile makefiles format, but instead of specifying files or targets dependencies, Makefile::Parallel specifies processes (or jobs) dependencies. The scheduler submits jobs to the cluster scheduler (in our case, Rocks PBS) waiting them to end. When each process finishes, dependencies are calculated and direct dependent jobs are submitted. Makefile::Parallel language includes features to specify parametric rules, used to split and join processes dependencies. Some tasks can be split into n smaller jobs working on different portions of files. At the end, another process can be used to join the results.

2007 comunicação em conferência Portugal acesso aberto

Resultados da pesquisa

Catálogo de Publicações - Todos

Processamento paralelo e distribuído baseado em workflows

Autonomic activities in the execution of scientific workflows: evaluation of the AWARD framework

Specializing agents on data integration in a data warehousing system environment

Makefile: parallel dependency specification language

Ferramentas de pesquisa:

Filtros

Autor expand_less expand_more

Ano da publicação expand_less expand_more

Tipo de documento expand_less expand_more

Tipo de acesso expand_less expand_more

Idioma expand_less expand_more

Assunto expand_less expand_more

Recurso expand_less expand_more

Organização expand_less expand_more

País expand_less expand_more

Financiador expand_less expand_more

Programa de financiamento expand_less expand_more

ID de projeto / bolsa expand_less expand_more