Author(s): Gomes, Beatriz Margarida Moço Ferreira
Date: 2013
Persistent ID: http://hdl.handle.net/10451/9921
Origin: Repositório da Universidade de Lisboa
Subject(s): Bioinformática; Biologia computacional; Teses de mestrado - 2013
Author(s): Gomes, Beatriz Margarida Moço Ferreira
Date: 2013
Persistent ID: http://hdl.handle.net/10451/9921
Origin: Repositório da Universidade de Lisboa
Subject(s): Bioinformática; Biologia computacional; Teses de mestrado - 2013
Tese de mestrado em Bioinformática e Biologia Computacional (Bioinformática), apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2013
Com as novas técnicas de sequenciação de genomas, a quantidade de informação a nível molecular tem crescido exponencialmente. Para perceber a origem da diversidade biológica assim como a história evolutiva de um gene, a comparação entre genomas tornou-se indispensável. Normalmente, esta comparação tem por base a análise de sequências homólogas { sequências que derivaram de um ancestral comum. Há pelo menos dois sub-tipos de homologia: ortologia e paralogia. Genes ortólogos (ortho = exacto) são genes homólogos que derivaram de um ancestral comum através de um evento de especiação. Genes parálogos (para = paralelo) são genes homólogos que derivaram de um ancestral comum através de um evento de duplicação. Genes ortólogos são importantes para estabelecer a correspondência entre genes de espécies diferentes; são os únicos que reflectem a árvore das espécies e por isso a reconstrução de árvores filogenéticas tem de ser baseada neste tipo de genes; na maioria dos casos, genes ortólogos têm funções equivalentes em diferentes organismos sendo por isso utilizados para a anotação de funções. A detecção de genes ortólogos não é uma tarefa fácil devido a vários factores, entre eles: perda, duplicação, fusão e fissão de genes, e eventos de transferência horizontal. Além destes eventos biológicos, a composição das proteínas pode também afectar a detecção destes genes, como no caso de proteínas com mais do que um domínio ou com domínios de pouca complexidade (por exemplo, proteínas coiled coil). Com o intuito de ultrapassar alguns destes obstáculos, foram criados diversos métodos para a detecção de ortólogos (até á data mais de 30). Em geral, estes podem ser divididos em duas categorias: métodos baseados na formação de grafos (graph-based) e métodos baseados em filogenia (tree-based). Os primeiros formam \clusters" de ortólogos baseados na semelhança entre pares de sequências, distinguem menos relações evolutivas mas são mais eficientes. Os segundos têm mais precisão mas requerem maior poder computacional. Para estudos em grande escala, o custo computacional poderá tornar-se um factor limitante. Neste estudo, nós propomos um novo método a que chamámos TreeHop que tem como objectivo combinar a eficiência de métodos baseados em grafos usados em grande escala com a precisão de métodos filogenéticos usados em pequena escala. O TreeHop foi pensado para funcionar como uma extensão de um qualquer outro método de detecção de ortólogos já existente (método base), que pode ser baseado em grafos ou em filogenia. O seu input é um perfil de genes ortólogos detectados pelo método base para um dado gene e uma árvore para um determinado conjunto de espécies. O TreeHop tem como objectivo inferir ortólogos nas espécies para as quais o método base não os conseguiu detectar, e às quais nos referimos como espécies gap. Para cada espécie gap, o TreeHop utiliza o ortólogo detectado na espécie mais próxima para procurar um possível ortólogo nesta espécie. Se não o encontrar continua a percorrer a árvore da espécie mais próxima para a menos próxima, até encontrar um ortólogo ou não haver mais espécies de onde saltar. O método usado como base e o método usado para a detecção de mais ortólogos (método de salto) são independentes: podem ser o mesmo ou diferentes. Mas é de notar que o método de salto tem de ser um método pairwise. Nesta tese, nós utilizámos o método Bi-directional Best Hit como método base e método de salto. Este assume que genes são ortólogos se forem o primeiro hit (BLAST), reciprocamente em dois genomas. Uma das desvantagens deste método é o facto de ser apenas capaz de inferir relações um-para-um. Mesmo assim, esta continua a ser uma das metodologias mais usadas devido à sua eficácia. Também foi mostrado que a sua performance é melhor em comparação com alguns métodos mais complexos. Devido à falta de um gold standard em larga escala, a validação do algoritmo foi realizada contra um método baseado em filogenias PhylomeDB, que é uma base de dados pública para colecções completas de filogenias de genes. Foi também feita uma validação, em pequena escala, contra um conjunto manualmente curado de 70 famílias de proteínas cuja composição apresenta desafios a nível biológico e técnico, à detecção de ortologia. Foram feitas diversas análises para testar a robustez do algoritmo: analisou-se como a escolha do método base afecta a qualidade dos resultados; assim como a qualidade da árvore das espécies; testou-se também se o TreeHop tinha uma performance inferior em certas classes de proteínas (proteínas com mais de um domínio, família de proteínas de grande número e proteínas com regiões de baixa complexidade). Tentou-se também perceber se determinados parâmetros poderiam ser mudados para melhorar a performance do TreeHop. Entre eles testou-se um método de salto diferente, o efeito do e-value do alinhamento e tamanho de proteínas, e diversas estratégias de salto. No final, concluímos que o TreeHop aumenta a sensibilidade e precisão do método base e propomos também algumas heurísticas para modular a sua performance.
Reliable prediction of orthologs { genes descending from a common ancestor through a speciation event { is critical for comparative and evolutionary genomics as well as for functional annotation transfer. Phylogenetic approaches are known to be accurate, however, they are computationally expensive which becomes a limiting factor for large-scale analyses. On the other hand, graph-based methods which cluster orthologs based on pairwise sequence similarity of proteins distinguish less evolutionary relationships but are more efficient. Here, we propose a novel orthology detection method coined TreeHop that aims to combine the efficiency of large-scale pairwise methods and the accuracy of small-scale phylogenetic approaches. TreeHop was designed to work as an extension of any other existing orthology detection method, in the following referred to as base method, and makes use of a given species tree. Based on the assumption that it is more likely to find orthologs between closely related species, TreeHop exploits the orthologs found in the closest species in order to search for more orthologs that the base method may have missed. We validated our algorithm against PhylomeDB which is a public database for complete collections of gene phylogenies and against a set of manually curated protein families composed of different technical and biological challenges for orthology detection. We find that TreeHop increases the sensitivity and accuracy of the base method and propose several heuristics to modulate its performance.