Document details

Desenvolvimento de um sistema integrado para o tratamento de dados de sequenciação de próxima geração

Author(s): Reis, Marco André Ferreira

Date: 2013

Persistent ID: http://hdl.handle.net/1822/27893

Origin: RepositóriUM - Universidade do Minho

Subject(s): 577.2:681.3; 681.3:577.2; 61:681.3; 681.3:61


Description

Dissertação de mestrado em Bioinformática

A sequenciação de próxima geração veio permitir a sequenciação em paralelo de milhões de pares de bases de DNA / RNA, tendo tido desde o início um grande impacto, ao ponto de se tornar o método escolhido em projetos de grande escala, em detrimento do método de Sanger. Entre as principais aplicações desta tecnologia encontram-se a análise em larga escala da metilação de DNA, o Chip-Seq para análise da interação entre proteínas e DNA ou RNA, e o mapeamento de rearranjos estruturais. Destacam-se, especialmente, a sequenciação de novos organismos ou indivíduos, o estudo de polimorfismos de nucleótido único (DNA-Seq) e a análise de expressão genética (RNA-Seq). Neste trabalho, foi desenvolvido um sistema onde foram integradas ferramentas necessárias para estudos de DNA-Seq e RNA-Seq. Inicialmente, foi efetuado um estudo das aplicações existentes, tendo de seguida sido selecionadas as que se destacaram em parâmetros como a facilidade de utilização, documentação e possibilidade de integração com as restantes ferramentas do sistema. O sistema foi desenvolvido utilizando-se as linguagens de programação Ruby, Java e R, sendo as principais funcionalidades o estudo de polimorfismos, a assemblagem de novo e a análise de expressão genética a partir de dados de RNA-Seq. Este permite uma utilização simplificada e semiautomática dos vários programas, sendo acessível a utilizadores com poucos conhecimentos informáticos. O sistema foi testado em três casos de estudo: caracterização de duas estirpes de Mycobacterium Tuberculosis, assemblagem de novo da Pseudomonas str. M1 e o estudo da expressão genética em amostras de Saccharomyces cerevisiae.

Next-generation sequencing has enabled the sequencing of millions of base pairs of DNA and RNA, in parallel. This technology had, from the beginning a great impact to the point of becoming the method of choice for large-scale projects, replacing the Sanger method. Among the many applications of this technology we can include the analysis of DNA methylation, the analysis of the interaction between proteins (Chip-Seq) and DNA or RNA, and the mapping of structural rearrangements. However, the sequencing of new organisms or individuals, the study of single nucleotide polymorphisms (DNA-Seq) and gene expression analysis (RNA-Seq) are the main fields of study with this technology. In this work, a system integrating tools to study DNA-Seq and RNA-Seq data has been developed, starting by studying existing applications. Then, taking into account parameters such as ease of use, documentation and possibility of integration with other system tools, an optimal set of tools has been selected. The system was developed using the Ruby, Java and R programming languages, and its main features are the study of polymorphisms, de novo genomes assemblies and gene expression analysis. The developed system allows a simplified and semiautomatic use of the implemented tools making them accessible to users with limited computer knowledge. The system was tested on three case studies: characterization of two strains of Mycobacterium tuberculosis, de novo assembly of Pseudomonas str. M1 and a study of gene expression in Saccharomyces cerevisiae samples.

Document Type Master thesis
Language Portuguese
Advisor(s) Rocha, Miguel; Soares, Simão Pedro de Pinho
Contributor(s) Universidade do Minho
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents