Publicação
Classificação taxonómica de procariotas com base em sequências simuladas do gene 16S rRNA
| Resumo: | O estudo de fragmentos de DNA obtidos directamente de uma amostra ambiental é designado por metagenómica. A determinação da sequência de bases desses fragmentos pode ser obtida através da sequenciação de todos os fragmentos da amostra (sequenciação shotgun) ou de amplicões de genes marcadores, como por exemplo o gene 16S rRNA. Nos últimos anos, os estudos de metagenómica têm tido um desenvolvimento crescente em resultado da introdução de novas plataformas de sequenciação paralela massiva, que permitem obter várias centenas de gigabases de sequência por ensaio. Apesar do potencial de conhecimento científico que estes estudos vieram permitir, colocaram também novos desafios na análise do grande volume de dados obtido. Assim, a necessidade de análise de dados de sequenciação shotgun ou de amplicões do gene 16S rRNA despoletou o aparecimento de múltiplas ferramentas bioinformáticas que cobrem os diferentes níveis de análise de metagenomas, desde a avaliação da qualidade das leituras de sequenciação até à identificação de novos genes com relevância funcional. No presente trabalho reviram-se mais de uma centena de programas disponíveis no domínio público que podem ser aplicados à análise de dados de sequenciação de metagenomas, incluindo 91 programas que permitem a identificação taxonómica das leituras obtidas na sequenciação. No entanto, é um facto que programas distintos, aplicados ao mesmo conjunto de dados, podem produzir resultados diferentes. De forma a testar e comparar a performance dos programas de classificação taxonómica de leituras do gene 16S rRNA, foi desenvolvido um programa (sim16S) em linguagem Matlab que permite obter leituras simuladas de amplicões deste gene, escolhidos a partir de uma base de dados de sequências de referência usando oligonucleótidos introduzidos pelo utilizador. O sim16S produz outros ficheiros de dados, incluindo o número de leituras atribuídas a cada táxon dos 5 níveis taxonómicos desde o filo até ao género, e um relatório com diversas estatísticas. Neste trabalho, o sim16S foi utilizado para produzir diversos conjuntos de leituras de 2 amplicões do gene 16S rRNA e introduzir substituições de bases, de acordo com um modelo estatístico que simula a distribuição de erros de sequenciação. Com base nestes conjuntos de leituras, foram efectuadas 20 análises de classificação taxonómica em paralelo com os programas QIIME e mothur, que constituem os 2 programas mais citados neste âmbito na literatura científica. A análise de leituras sem erros de sequenciação mostrou que a exactidão da classificação taxonómica decresce em direcção aos níveis taxonómicos inferiores, mesmo utilizando as sequências que deram origem às leituras simuladas como base de dados de referência. A utilização de outras bases de dados nos 2 programas conduziu a um aumento significativo de táxones sem classificação taxonómica completa, em todos os níveis taxonómicos. A presença de 1, 2 ou 4 erros de sequenciação nas leituras não afectou a classificação taxonómica das leituras nos níveis de filo, classe e ordem em ambos os programas, relativamente à classificação das leituras sem erros. No entanto, a exactidão da classificação no mothur, nos restantes níveis taxonómicos, foi afectada na presença de ~1%, ~10% e 100% de leituras com 1 erro de sequenciação por leitura ou ~10% de leituras com 2 ou 4 erros por leitura. Pelo contrário, o QIIME apenas revelou uma exactidão inferior a 99% nos conjuntos de leituras com 100% de leituras com 1 erro, sugerindo que este programa é menos sensível à presença de erros de sequenciação do que o mothur. As análises efectuadas mostraram que o sim16S é uma ferramenta bioinformática útil para testar a performance da classificação taxonómica de diferentes programas existentes no domínio público. Além disso, o sim16S pode facilmente ser adaptado a outros genes procariotas ou eucariotas para os quais estejam disponíveis bases de dados de sequências de referência, podendo assim funcionar como uma ferramenta de âmbito geral no contexto dos estudos de metagenómica. |
|---|---|
| Autores principais: | Vieira, Luís Miguel Ramos |
| Assunto: | Metagenómica Gene 16S rRNA Sequenciação de amplicões Simulação de leituras Teses de mestrado - 2017 |
| Ano: | 2017 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | português |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | O estudo de fragmentos de DNA obtidos directamente de uma amostra ambiental é designado por metagenómica. A determinação da sequência de bases desses fragmentos pode ser obtida através da sequenciação de todos os fragmentos da amostra (sequenciação shotgun) ou de amplicões de genes marcadores, como por exemplo o gene 16S rRNA. Nos últimos anos, os estudos de metagenómica têm tido um desenvolvimento crescente em resultado da introdução de novas plataformas de sequenciação paralela massiva, que permitem obter várias centenas de gigabases de sequência por ensaio. Apesar do potencial de conhecimento científico que estes estudos vieram permitir, colocaram também novos desafios na análise do grande volume de dados obtido. Assim, a necessidade de análise de dados de sequenciação shotgun ou de amplicões do gene 16S rRNA despoletou o aparecimento de múltiplas ferramentas bioinformáticas que cobrem os diferentes níveis de análise de metagenomas, desde a avaliação da qualidade das leituras de sequenciação até à identificação de novos genes com relevância funcional. No presente trabalho reviram-se mais de uma centena de programas disponíveis no domínio público que podem ser aplicados à análise de dados de sequenciação de metagenomas, incluindo 91 programas que permitem a identificação taxonómica das leituras obtidas na sequenciação. No entanto, é um facto que programas distintos, aplicados ao mesmo conjunto de dados, podem produzir resultados diferentes. De forma a testar e comparar a performance dos programas de classificação taxonómica de leituras do gene 16S rRNA, foi desenvolvido um programa (sim16S) em linguagem Matlab que permite obter leituras simuladas de amplicões deste gene, escolhidos a partir de uma base de dados de sequências de referência usando oligonucleótidos introduzidos pelo utilizador. O sim16S produz outros ficheiros de dados, incluindo o número de leituras atribuídas a cada táxon dos 5 níveis taxonómicos desde o filo até ao género, e um relatório com diversas estatísticas. Neste trabalho, o sim16S foi utilizado para produzir diversos conjuntos de leituras de 2 amplicões do gene 16S rRNA e introduzir substituições de bases, de acordo com um modelo estatístico que simula a distribuição de erros de sequenciação. Com base nestes conjuntos de leituras, foram efectuadas 20 análises de classificação taxonómica em paralelo com os programas QIIME e mothur, que constituem os 2 programas mais citados neste âmbito na literatura científica. A análise de leituras sem erros de sequenciação mostrou que a exactidão da classificação taxonómica decresce em direcção aos níveis taxonómicos inferiores, mesmo utilizando as sequências que deram origem às leituras simuladas como base de dados de referência. A utilização de outras bases de dados nos 2 programas conduziu a um aumento significativo de táxones sem classificação taxonómica completa, em todos os níveis taxonómicos. A presença de 1, 2 ou 4 erros de sequenciação nas leituras não afectou a classificação taxonómica das leituras nos níveis de filo, classe e ordem em ambos os programas, relativamente à classificação das leituras sem erros. No entanto, a exactidão da classificação no mothur, nos restantes níveis taxonómicos, foi afectada na presença de ~1%, ~10% e 100% de leituras com 1 erro de sequenciação por leitura ou ~10% de leituras com 2 ou 4 erros por leitura. Pelo contrário, o QIIME apenas revelou uma exactidão inferior a 99% nos conjuntos de leituras com 100% de leituras com 1 erro, sugerindo que este programa é menos sensível à presença de erros de sequenciação do que o mothur. As análises efectuadas mostraram que o sim16S é uma ferramenta bioinformática útil para testar a performance da classificação taxonómica de diferentes programas existentes no domínio público. Além disso, o sim16S pode facilmente ser adaptado a outros genes procariotas ou eucariotas para os quais estejam disponíveis bases de dados de sequências de referência, podendo assim funcionar como uma ferramenta de âmbito geral no contexto dos estudos de metagenómica. |
|---|