Document details

Capture and analysis of the NFS workload of an ISP email service

Author(s): Loureiro, Nuno André Henriques

Date: 2009

Persistent ID: http://hdl.handle.net/10451/4307

Origin: Repositório da Universidade de Lisboa

Subject(s): Captura passiva de pacotes; Filtragem de Pacotes; Computadores; Armazenamento; Teses de mestrado - 2009


Description

Tese de mestrado Segurança Informática, Universidade de Lisboa, Faculdade de Ciências, 2009

Os objectivos desta tese são capturar a carga de comandos NFS de um serviço de email de um provedor de Internet, converter a captura para um formato mais flexível, e analisar as características do mesmo. Até ao momento, nenhum outro trabalho publicado, analisou a carga de comandos de um serviço de email de um provedor de Internet. Um novo estudo, irá ajudar a compreender qual o impacto das diferenças na carga de comandos de um sistema de ficheiros de rede, e o que caracteriza a carga de comandos de um sistema de email real. A captura será analisada, de forma a encontrar novas propriedades que futuros sistemas de ficheiros poderão suportar ou explorar. Nesta tese, fazemos uma análise exaustiva de como capturar altos débitos de tráfego, que envolve vários desafios. Identificamos os problemas encontrados e explicamos como contornar esses problemas. Devido ao elevado tamanho da captura e devido ao espaço limitado de armazenamento disponível, precisámos de converter a captura para um formato mais compacto e flexível, de forma a podermos fazer uma análise de forma eficiente. Descrevemos os desafios para analisar grandes volumes de dados e quais as técnicas utilizadas. Visto que a captura contém dados sensíveis das caixas de correio dos utilizadores, tivemos que anonimizar a captura. Descrevemos que dados têm de ser anonimizados de forma a disponibilizarmos a captura gratuitamente. Também analisamos a captura e demonstramos as características únicas da captura estudada, tais como a natureza periódica da actividade do sistema de ficheiros, a distribuição de tamanhos de todos os ficheiros acedidos, a sequencialidade dos dados acedidos e os tipos de anexos mais comuns numa típica caixa de correio.

The aims of this thesis are to capture a real-world NFS workload of an ISP email service, convert the traces to a more useful and flexible format and analyze the characteristics of the workload. No published work has ever analyzed a large-scale, real-world ISP email workload. A new study will help to understand how these changes impact network file system workloads and what characterizes a real-world email workload. Storage traces are analyzed to find properties that future systems should support or exploit. In this thesis, we provide an in-depth explanation of how we were able to capture high data rates, which involves several challenges. We identify the bottlenecks faced and explain how we circumvented them. Due to the large size of the captured workload and limited available storage, we needed to convert the traces to a more compact and flexible format so we could further analyze the workload in an efficient manner. We describe the challenges of analyzing large datasets and the techniques that were used. Since the workload contains sensitive information about the mailboxes, we had to anonymize the workload. We will describe what needed to be anonymized and how it was done. This was an important step to get permission from the ISP to publish the anonymized traces, which will be available for free download. We also performed several analyses that demonstrate unique characteristics of the studied workload, such as the periodic nature of file system activity, the file size distribution for all accessed files, the sequentiality of accessed data, and the most common type of attachments found in a typical mailbox.

Document Type Master thesis
Language English
Advisor(s) Ganger, Greg; Costa, António Casimiro Ferreira da, 1968-
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents