Publicação

Analysis and implementation of consistency and fault tolerance mechanisms in soft real-time systems

Ver documento

Detalhes bibliográficos
Resumo:Neste projecto pretende-se explorar a implementação de soluções de tolerância a faltas num sistema de monitorização de rede. A monitorização é feita numa grande rede empresarial, com um volume de informação significativo devido ao elevado número de clientes que a empresa de telecomunicações tem a nível nacional. Por norma, não podemos evitar todas as faltas, é preciso tolerá-las replicando os componentes do sistema para o tornar mais confiável. ´E necessário fazer uma análise detalhada a cada componente, verificar as falhas existentes e prováveis, e, se possível, alterar a arquitectura de modo a colmatar as falhas identificadas. Para além de efectuarmos a análise `a confiabilidade do sistema, que foi o foco principal do projecto, algum do trabalho incidiu sobre a necessidade de melhorar a monitorização do sistema, isto é, foi necessário extrair métricas e indicadores relevantes que possibilitam uma melhor introspecção permitindo despoletar accões de recuperação automáticas e uma visualização mais completa do estado do sistema. Partindo do estado inicial, o objectivo foi analisar detalhadamente o sistema: a sua arquitectura, os componentes que o constituem e o seu funcionamento. Partindo dessa análise, foram elaborados casos de uso que serviram de base para a execução de testes ao sistema, permitindo retirar conclusões de como melhorar a confiabilidade e adicionar mecanismos de tolerância a faltas ao sistema. A arquitectura do sistema foi analisada antes da realização dos testes, resultando na elaboração de diagramas representativos em diferentes níveis de abstraccão, nomeadamente ao nível da infraestrutura e ao nível dos serviços. Adicionalmente, todas as ferramentas usadas no projecto foram revistas identificando os seus objectivos e propósitos. A realização dos testes ao sistema permitiu delimitar a capacidade de processamento de cada um dos componentes e identificar o comportamento e consequências resultantes da injecção de faltas em situações predeterminadas. Os resultados e conclusões extraídos foram registados e serviram de base para o desenho de soluções aplicáveis ao sistema com o objectivo de corrigir as falhas identificadas. Após as modificações iniciais a estabilidade do sistema foi melhorada, resultado da adição de capacidades de recuperação automática aos componentes do sistema, isto é, ao ocorrerem falhas identificadas e previsíveis, o sistema é capaz de retornar ao estado correcto de funcionamento sem qualquer necessidade de intervenção humana. Este tipo de comparação foi realizada em pontos-chave do projecto com o objectivo de registar os resultados das implementações realizadas em cada etapa. A fase final consistiu em desenhar soluções que permitissem adicionar redundância ao sistema com o objectivo de introduzir tolerância a faltas no sistema. Foi necessária uma máquina física adicional e, antes de ser escolhida a solução final, foi realizado o levantamento do estado da arte relativo às técnicas utilizadas nesta área. Das várias opções estudadas, um subconjunto foi testado em ambiente de desenvolvimento. As soluções escolhidas para implementação tiveram em conta a facilidade e aspecto prático, bem como as vantagens e desvantagens de cada opção. No final, temos um sistema tolerante a faltas, replicado em duas máquinas físicas que se supervisionam mutuamente tendo a capacidade de tolerar a falha de uma das máquinas.
Autores principais:Figueira, Pedro Miguel Ferreira
Assunto:Confiabilidade Tolerância a faltas Sistemas distribuídos Replicação Disponibilidade Monitorização Trabalhos de projecto de mestrado - 2014
Ano:2014
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Universidade de Lisboa
Idioma:inglês
Origem:Repositório da Universidade de Lisboa
Descrição
Resumo:Neste projecto pretende-se explorar a implementação de soluções de tolerância a faltas num sistema de monitorização de rede. A monitorização é feita numa grande rede empresarial, com um volume de informação significativo devido ao elevado número de clientes que a empresa de telecomunicações tem a nível nacional. Por norma, não podemos evitar todas as faltas, é preciso tolerá-las replicando os componentes do sistema para o tornar mais confiável. ´E necessário fazer uma análise detalhada a cada componente, verificar as falhas existentes e prováveis, e, se possível, alterar a arquitectura de modo a colmatar as falhas identificadas. Para além de efectuarmos a análise `a confiabilidade do sistema, que foi o foco principal do projecto, algum do trabalho incidiu sobre a necessidade de melhorar a monitorização do sistema, isto é, foi necessário extrair métricas e indicadores relevantes que possibilitam uma melhor introspecção permitindo despoletar accões de recuperação automáticas e uma visualização mais completa do estado do sistema. Partindo do estado inicial, o objectivo foi analisar detalhadamente o sistema: a sua arquitectura, os componentes que o constituem e o seu funcionamento. Partindo dessa análise, foram elaborados casos de uso que serviram de base para a execução de testes ao sistema, permitindo retirar conclusões de como melhorar a confiabilidade e adicionar mecanismos de tolerância a faltas ao sistema. A arquitectura do sistema foi analisada antes da realização dos testes, resultando na elaboração de diagramas representativos em diferentes níveis de abstraccão, nomeadamente ao nível da infraestrutura e ao nível dos serviços. Adicionalmente, todas as ferramentas usadas no projecto foram revistas identificando os seus objectivos e propósitos. A realização dos testes ao sistema permitiu delimitar a capacidade de processamento de cada um dos componentes e identificar o comportamento e consequências resultantes da injecção de faltas em situações predeterminadas. Os resultados e conclusões extraídos foram registados e serviram de base para o desenho de soluções aplicáveis ao sistema com o objectivo de corrigir as falhas identificadas. Após as modificações iniciais a estabilidade do sistema foi melhorada, resultado da adição de capacidades de recuperação automática aos componentes do sistema, isto é, ao ocorrerem falhas identificadas e previsíveis, o sistema é capaz de retornar ao estado correcto de funcionamento sem qualquer necessidade de intervenção humana. Este tipo de comparação foi realizada em pontos-chave do projecto com o objectivo de registar os resultados das implementações realizadas em cada etapa. A fase final consistiu em desenhar soluções que permitissem adicionar redundância ao sistema com o objectivo de introduzir tolerância a faltas no sistema. Foi necessária uma máquina física adicional e, antes de ser escolhida a solução final, foi realizado o levantamento do estado da arte relativo às técnicas utilizadas nesta área. Das várias opções estudadas, um subconjunto foi testado em ambiente de desenvolvimento. As soluções escolhidas para implementação tiveram em conta a facilidade e aspecto prático, bem como as vantagens e desvantagens de cada opção. No final, temos um sistema tolerante a faltas, replicado em duas máquinas físicas que se supervisionam mutuamente tendo a capacidade de tolerar a falha de uma das máquinas.