Document details

Root cause analysis in large and complex networks

Author(s): Carvalho, Tiago Filipe Rodrigues de

Date: 2008

Persistent ID: http://hdl.handle.net/10451/1204

Origin: Repositório da Universidade de Lisboa

Subject(s): Segurança informática; Teses de mestrado


Description

Tese de mestrado em Segurança Informática, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2008

Uma grande parte do sucesso de uma empresa depende do desempenho da função de Tecnologias de Informação. Em redes de grandes dimensões, devido à evolução do número de clientes e às constantes mudanças nas necessidades das empresas, as dependências entre sistemas e elementos de rede têm vindo a tornar-se cada vez mais complexas. Consequentemente, a localização das causas originais de problemas de desempenho de sistemas é uma tarefa complexa. A rede tem de ser analizada como um todo porque, mesmo durante a ocorrência de uma falha, todos os sistemas podem parecer estar correctos quando analizados separada e instantâneamente. O objectivo deste projecto é o estudo de uma solução automática de análise de causas originais de falhas em redes complexas e de grandes dimensões. Neste trabalho, é apresentado o Etymon, uma ferramenta que identifica os componentes e métricas mais relevantes para explicar os problemas que afectam o trabalho diário dos utilizadores finais. O presente trabalho propõe uma arquitectura modular para executar as acções necessárias para encontrar uma explicação para um problema de desempenho. A análise começa por processar registos de falhas (trouble-tickets) de forma a identificar os principais períodos de desempenho degradado. O tráfego de rede é analizado continuamente para identificar as dependências entre componentes e mantê-las actualizadas. Usando a informação sobre dependências, é criado um modelo da rede que representa o ambiente para uma aplicação específica. De seguida, é avaliado o estado de cada componente do modelo durante o período do problema com base em desvios do seu comportamento habitual. Finalmente, é feita a pesquisa no modelo por caminhos causais em que o primeiro componente corresponde à causa original do problema. Para testar a aplicação desenvolvida foi utilizada a rede empresarial de um operador de telecomunicações Europeu. Assim, foram enfrentados todos os desafios iner

A huge share of a company's success relies on the performance of its IT infrastructure. In large networks, due to the evolution of the number of clients and changes in the company requirements, the dependencies among systems and network elements tend to become increasingly complex. Consequently, the localization of root-causes of performance problems is a very challenging task. The network must be analyzed as a whole because, despite the failure, all systems may seem to work fine when analyzed separately. The purpose of this project is to study an automatic root-cause analysis of failures in large and complex networks. We present Etymon, a tool that identifies the most relevant network components and metrics to explain performance problems affecting the daily work of end-users. We propose a modular architecture to perform the tasks necessary to find explanation root-cause of a problem. The analysis starts by processing trouble tickets in order to identify the major performance issues. Traffic monitoring and analysis are continuously performed on the network to identify the dependencies among components. Using the dependency information, we create a network model that represents the environment for a specific application. We then evaluate the state of each component of the model during the time when the trouble ticket is issued, based on deviations from observed normal behavior. Finally, we search the model for causal paths that start on a root-cause component and provide an explanation for the failure. The testbed for our application is the enterprise IT network of a large European Telecom operator. Therefore, we face challenges of applying such tools to a production network. For example, the challenges are possible lack of information about applications, complex interactions, and high number of workflows. Etymon introduces concepts such as environment-specific network model, context-conditioned dependency information, temporal correlation of the anomalies and

Document Type Master thesis
Language English
Advisor(s) Kim, Hyong S.; Neves, Nuno Fuentecilla Maia Ferreira
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents