Document details

Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA

Author(s): Vieira, Luís Miguel Ramos

Date: 2017

Persistent ID: http://hdl.handle.net/10451/31955

Origin: Repositório da Universidade de Lisboa

Subject(s): Metagenómica; Gene 16S rRNA; Sequenciação de amplicões; Simulação de leituras; Teses de mestrado - 2017; Departamento de Biologia Animal


Description

Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática) Universidade de Lisboa, Faculdade de Ciências, 2017

O estudo de fragmentos de DNA obtidos directamente de uma amostra ambiental é designado por metagenómica. A determinação da sequência de bases desses fragmentos pode ser obtida através da sequenciação de todos os fragmentos da amostra (sequenciação shotgun) ou de amplicões de genes marcadores, como por exemplo o gene 16S rRNA. Nos últimos anos, os estudos de metagenómica têm tido um desenvolvimento crescente em resultado da introdução de novas plataformas de sequenciação paralela massiva, que permitem obter várias centenas de gigabases de sequência por ensaio. Apesar do potencial de conhecimento científico que estes estudos vieram permitir, colocaram também novos desafios na análise do grande volume de dados obtido. Assim, a necessidade de análise de dados de sequenciação shotgun ou de amplicões do gene 16S rRNA despoletou o aparecimento de múltiplas ferramentas bioinformáticas que cobrem os diferentes níveis de análise de metagenomas, desde a avaliação da qualidade das leituras de sequenciação até à identificação de novos genes com relevância funcional. No presente trabalho reviram-se mais de uma centena de programas disponíveis no domínio público que podem ser aplicados à análise de dados de sequenciação de metagenomas, incluindo 91 programas que permitem a identificação taxonómica das leituras obtidas na sequenciação. No entanto, é um facto que programas distintos, aplicados ao mesmo conjunto de dados, podem produzir resultados diferentes. De forma a testar e comparar a performance dos programas de classificação taxonómica de leituras do gene 16S rRNA, foi desenvolvido um programa (sim16S) em linguagem Matlab que permite obter leituras simuladas de amplicões deste gene, escolhidos a partir de uma base de dados de sequências de referência usando oligonucleótidos introduzidos pelo utilizador. O sim16S produz outros ficheiros de dados, incluindo o número de leituras atribuídas a cada táxon dos 5 níveis taxonómicos desde o filo até ao género, e um relatório com diversas estatísticas. Neste trabalho, o sim16S foi utilizado para produzir diversos conjuntos de leituras de 2 amplicões do gene 16S rRNA e introduzir substituições de bases, de acordo com um modelo estatístico que simula a distribuição de erros de sequenciação. Com base nestes conjuntos de leituras, foram efectuadas 20 análises de classificação taxonómica em paralelo com os programas QIIME e mothur, que constituem os 2 programas mais citados neste âmbito na literatura científica. A análise de leituras sem erros de sequenciação mostrou que a exactidão da classificação taxonómica decresce em direcção aos níveis taxonómicos inferiores, mesmo utilizando as sequências que deram origem às leituras simuladas como base de dados de referência. A utilização de outras bases de dados nos 2 programas conduziu a um aumento significativo de táxones sem classificação taxonómica completa, em todos os níveis taxonómicos. A presença de 1, 2 ou 4 erros de sequenciação nas leituras não afectou a classificação taxonómica das leituras nos níveis de filo, classe e ordem em ambos os programas, relativamente à classificação das leituras sem erros. No entanto, a exactidão da classificação no mothur, nos restantes níveis taxonómicos, foi afectada na presença de ~1%, ~10% e 100% de leituras com 1 erro de sequenciação por leitura ou ~10% de leituras com 2 ou 4 erros por leitura. Pelo contrário, o QIIME apenas revelou uma exactidão inferior a 99% nos conjuntos de leituras com 100% de leituras com 1 erro, sugerindo que este programa é menos sensível à presença de erros de sequenciação do que o mothur. As análises efectuadas mostraram que o sim16S é uma ferramenta bioinformática útil para testar a performance da classificação taxonómica de diferentes programas existentes no domínio público. Além disso, o sim16S pode facilmente ser adaptado a outros genes procariotas ou eucariotas para os quais estejam disponíveis bases de dados de sequências de referência, podendo assim funcionar como uma ferramenta de âmbito geral no contexto dos estudos de metagenómica.

The study of DNA fragments obtained directly from an environmental sample is called metagenomics. Determination of the sequence of bases of these fragments can be achieved by sequencing all fragments in the sample (shotgun sequencing) or amplicons derived from marker genes, such as the 16S rRNA gene. In recent years, metagenomics studies have been growing as a result of the introduction of new massive parallel sequencing platforms, which allow for several hundred gigabases of sequence per assay. Despite the potential of scientific knowledge that these studies allowed, they also posed new difficulties in the analysis of the large volume of data obtained. Thus, the need for analysis of shotgun sequencing or 16S rRNA gene amplicons triggered the emergence of multiple bioinformatics tools covering the different levels of metagenome analysis, ranging from the quality evaluation of sequencing reads to the identification of new genes with functional relevance. In the present work, more than 100 publicly available programs that can be applied to the analysis of metagenome sequencing data were analyzed, including 91 programs that allow taxonomic identification of sequencing reads. However, it is a fact that distinct programs, applied to the same set of data, can produce different results. In order to test and compare the performance of the 16S rRNA gene taxonomic classification tools, a program (sim16S) was developed in Matlab language that allows obtaining simulated reads of gene amplicons, chosen from a database of sequences using oligonucleotides introduced by the user. sim16S produces several data files, including the number of reads assigned to each taxon from the 5 taxonomic levels from phylum to genus, and a report with various statistics. In this work, sim16S was used to produce several sets of reads of 2 amplicons of the 16S rRNA gene, in which base substitutions were introduced according to a statistical model that simulates the distribution of sequencing errors. Based on sim16S datasets, 20 taxonomic classification analyzes were carried out in parallel with QIIME and mothur, which constitute the 2 most cited programs in the scientific literature in this field. Analysis of reads without sequencing errors showed that the accuracy of the taxonomic classification decreases toward the lower taxonomic levels, even using the sequences that gave rise to the simulated reads as a reference sequence database. The use of other databases in the two programs led to a significant increase in incomplete classified taxa at all taxonomic levels. The presence of 1, 2 or 4 sequencing errors in the reads did not affect the taxonomic classification at the phylum, class and order levels in both programs, relative to the classification of error-free reads. However, the accuracy of mothur classification at the remaining taxonomic levels was affected in the presence of ~1%, ~10% and 100% of reads with 1 sequencing error per read or in the presence of ~10% of reads with 2 or 4 errors per read. In contrast, QIIME only showed an accuracy of less than 99% in read sets with 100% of reads with 1 error, suggesting that this program is less sensitive to the presence of sequencing errors than mothur. These studies showed that sim16S is a useful bioinformatics tool to test the accuracy of the taxonomic classification of different programs available in the public domain. In addition, sim16S can easily be adapted to other prokaryotic or eukaryotic genes for which sequence databases are available and can thus function as a general tool in the context of metagenomics studies.

Document Type Master thesis
Language Portuguese
Advisor(s) Paulo, Octávio, 1963-
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents