Document details

Phylogenetic relationships of the most common pathogenic Candida species inferred by sequence analysis of nuclear genes

Author(s): Chávez Galarza, Júlio César

Date: 2009

Persistent ID: http://hdl.handle.net/1822/10616

Origin: RepositóriUM - Universidade do Minho

Subject(s): 577.2


Description

Dissertação de mestrado em Genética Molecular

As regiões genómicas codificantes são as mais usadas em estudos filogenéticos, quer através de análises multigénicas, quer filogenómicas. Contudo, a maioria destas análises usa apenas as regiões com elevada similaridade entre as sequências ortólogas, não considerando as restantes regiões, as quais nos podem dar informações muito úteis. Deste modo, o principal objectivo desta tese foi avaliar o uso dos genes da família MADS-box, RLM1 e MCM1, assim como o gene IFF8, que codifica para uma proteína GPI, em estudos de filogenia de fungos. Foram obtidas setenta e seis sequências ortólogas para RLM1 e MCM1 e oito para IFF8 através da pesquisa em várias bases de dados. O alinhamento das sequências foi realizado mediante o uso dos programas CLUSTALW e MUSCLE e a análise filogenética, utilizando os programas PHYML 3.0 e MrBayes 3.2. Os resultados obtidos usando o factor de transcrição RLM1 indicaram que este apresenta condições favoráveis para ser incluído em estudos filogenéticos de fungos, uma vez que a topologia obtida está muito próxima das estabelecidas em outras análises multigénicas e filogenómicas. O factor de transcrição MCM1 demonstrou limitações para ser utilizado em estudos filogenéticos a nível do reino, visto que as sequências obtidas apresentam uma grande variabilidade de tamanho, originando problemas nos alinhamentos. Apesar desta limitação este gene pode ser utilizado, quer independentemente quer combinado com outros genes, para resolver filogenias a nível do Filo ou de grupos de categoria inferior, uma vez que os resultados obtidos dentro do subfilo Saccharomycotina estão de acordo com os estudos publicados. A utilização do gene IFF8 para inferir filogenia apresentou grandes limitações uma vez que foram identificados ortólogos deste gene apenas no grupo CUG e além disso a filogenia obtida não estava de acordo com outros estudos publicados, em particular no respeitante à posição de C. tropicalis na filogenia de Candida spp. É presentemente aceite que no Subfilo Saccharomycotina ocorreu um processo de duplicação completa do genoma, nos grupos sensu stricto e sensu lato do ‗Complexo Saccharomyces‘ com conservação de vários genes duplicados. A pesquisa inicial por sequências ortólogas revelou que os factores de transcrição estudados neste trabalho estão dentro dos genes duplicados que foram mantidos. Assim, outro objectivo deste trabalho foi determinar se o gene RLM1 esteve sob selecção positiva no Subfilo Saccharomycotina. Esta análise identificou várias posições onde os aminoácidos estão possivelmente sob selecção positiva e embora estas substituições tenham sido observadas em diferentes locais da proteína, não se detectou nenhuma nas regiões conservadas. Esta observação sugere que a proteína executa uma função importante na célula que foi mantida durante o processo de divergência de espécies. A presença de aminoácidos sob selecção positiva, no inicio da região repetitiva do terminal carboxílico da proteína, bem como a diferença no aminoácido repetido entre as espécies com o genoma duplicado e as espécies com genoma não duplicado sugeriam que uma mutação de frameshift seria a responsável pelas alterações observadas. Esta hipótese foi então testada no Subfilo Saccharomycotina, desenhando as três grelhas de leitura e reconstruindo a sequência ancestral. Os resultados desta análise confirmaram que uma mutação de frameshift foi de facto responsável pelas alterações observadas na região repetitiva com substituição de aminoácidos, diversificando a função deste gene nas espécies que duplicaram o genoma. Os principais resultados desta tese foram: (i) a identificação do potencial do gene RLM1 para estudos de filogenia do reino Fungi, com especial ênfase na filogenia das espécies do género Candida spp.; e (ii) a identificação do mecanismo molecular responsável pela alteração da região repetitiva do terminal carboxílico da proteína, ocorrida no Saccharomyces sensu stricto durante a divergência das espécies após duplicação do genoma.

Coding regions are used to resolve phylogenetic relationships through multigenic and phylogenomic analyses. However, the majority of these analyses uses regions with similarity only among orthologue gene sequences and do not take into account other regions which could give useful information. Thus, the main purpose of this thesis was to evaluate the use of RLM1 and MCM1 MADS-box transcription factors, and IFF8, a GPI-anchor protein-coding gene, in fungi phylogeny. Seventy six putative orthologue sequences for RLM1 and MCM1 and eight for IFF8 were obtained from different fungal databases. Sequence alignments were performed by using CLUSTALW and MUSCLE and phylogeny was inferred by using PHYML 3.0 and Mr Bayes 3.2. Results obtained from the phylogenetic analysis, using the transcription factor RLM1, indicated that it presents conditions to be considered within a multigene analysis, since the obtained fungal phylogeny is closer to the ones established by multigene and phylogenomic analyses. The transcription factor MCM1 presented limitations to be used in phylogeny at the kingdom level, because of its variable sequence sizes. However, despite this limitation this gene can be used to resolve phylogeny at the phylum or lower clade levels since the results obtained, independently and/or concatenated with the other genes used in this study, within the subphylum Saccharomycotina were in agreement with published studies. On the other hand, the use of IFF8 gene to infer phylogeny is limited and restricted to the CUG group, since other orthologues were not found within the kingdom Fungi and the results obtained in the CUG group phylogeny presented conflicts, particularly in the position of Candida tropicalis which is not in agreement with previously determined relationship in Candida phylogeny. It is known that within the subphylum Saccharomycotina the process of genome duplication has occurred in the ‗Saccharomyces complex‘, groups sensu stricto and sensu lato, resulting in the duplication of some genes. The initial search for orthologue sequences showed that the transcription factors studied in this work are within the duplicated genes that were maintained. Thus, another objective of this work was to determine if RLM1 was under positive selection to search for an alternative explanation for the persistence and diversification of gene duplicates. These analyses identified several amino acid sites under positive selection within the subphylum Saccharomycotina and although these substitutions were present in different positions, they were not inside conserved regions, suggesting that the protein plays an important role in fungi that was maintained during the evolution process of divergence of species. The presence of amino acids under positive selection at the beginning of Rlm1 Cterminal repetitive region and the differences in the amino acid under repetition between species that presented the duplicated genome (WGD) and species with non duplicated genome was indicative of a possible frameshift mutation. This hypothesis was tested in Saccharomycotina group by designing the three open reading frames and reconstructing the ancestral sequence. Results from this analysis showed that amino acid substitution that occurred during the divergence of species changed this repetitive region and diversified gene function in WGD species avoiding the loss of the protein function. The major findings of this work were (i) the identification of the potential use of RLM1 gene for inferring phylogeny in the kingdom Fungi with special emphasis to Candida species, and (ii) the observation that this gene evolved within the Saccharomyces sensu stricto after genome duplication, being the molecular mechanism responsible for the change observed in the C-terminal of this protein most probably a frameshift mutation.

Las regiones genómicas codificantes son usadas en estudios filogenéticos através de análisis a niveles multigenicos y filogenómicos. Pero la mayoría de estos análisis usan solo regiones con similaridad entre secuencias de genes ortólogos y no toma en cuenta otras regiones las cuales podrían darnos informaciones útiles. Por lo tanto, el objetivo principal de esta tesis fue evaluar el uso de los genes MADS-box, RLM1 y MCM1, así como IFF8, un gen codificante de proteína de anclaje GPI, en la filogenia de hongos. Se obtuvieron setenta y seis secuencias putativas ortólogas para RLM1 y MCM1, y ocho para IFF8 a partir de las diferentes bases de datos de hongos. Los alineamientos de secuencias se realizaron mediante el uso de los programas CLUSTALW y MUSCLE, y la filogenia fue inferida por medio de los programas PHYML 3.0 y MrBayes 3.2. Los resultados obtenidos de los análisis filogenéticos, utilizando el factor de transcripción RLM1 indicaron que este presenta condiciones para ser considerado dentro de análisis multigénico, ya que la filogenia obtenida para hongos está muy próxima a las establecidas por otros análisis multigénicos y filogenómicos. El factor de transcripción MCM1 presentan limitaciones para ser utilizado en filogenia a nivel de reino, debido a sus secuencias de tamaño variables, dando lugar a problemas en el alineamiento. A pesar de esta limitación este gen se puede utilizar para resolver filogenias a nivel de Filo o clados inferiores debido a los resultados obtenidos con su uso, de manera independiente y/o combinado con el resto de genes utilizados en este estudio, ya que dentro del Subfilo Saccharomycotina estuvieron de acuerdo con estudios publicados. Por otro lado, el uso de IFF8 gen para inferir filogenia es limitado y restringido al grupo CUG, ya que otros ortólogos no se han encontrado en el reino Fungi y los resultados obtenidos en la filogenia del grupo CUG presentaron conflictos, en particular en la posición de C. tropicalis que no está de acuerdo con lo que ya se ha determinado en la filogenia de Candida spp. Es actualmente aceptado que dentro del subfilo Saccharomycotina el proceso de duplicación del genoma se ha producido en los grupos sensu stricto y sensu lato del 'Complejo Saccharomyces‘, resultando en la manutención de algunos genes. La búsqueda inicial de secuencias ortólogas mostró que los factores de transcripción estudiados en este trabajo están dentro de los genes duplicados que han sido mantenidos. Así pues, otro objetivo de este trabajo fue determinar si RLM1 estuvo bajo selección positiva. Estos análisis identificaron varios sitios donde los aminoácidos estuvieron posiblemente bajo selección positiva dentro del Subfilo Saccharomycotina y aunque estas sustituciones estaban presentes en diferentes posiciones, no estuvieron presentes en las regiones conservadas, lo que sugiere que la proteína ejecuta una función importante en la célula que fue mantenida durante el proceso de divergencia de especies. La presencia de aminoácidos bajo selección positiva en el inicio de la region repetitiva del C-terminal en Rlm1 y la diferencia en el aminoácido bajo repetición entre las especies con el genoma duplicado y las especies con genoma no duplicado indicaba un posible frameshift mutation. Asi, esta hipótesis fue testada en el subfilo Saccharomycotina diseñando tres open reading frames y reconstruyendo la secuencia ancestral. Los resultados de este análisis mostraron que la substitución de aminoácidos ocurrida durante la divergencia de especies que alteró esa región fue mediante una frameshift mutation diversificando la función de este gen en las especies que duplicaron su genoma. Los principales resultados de esta tesis son: (i) la identificación del potencial del gen RLM1 para estudios de filogenia en el reino Fungi, con especial énfasis en la filogenia de las especies de Candida spp y (ii) la identificación del mecanismo molecular responsable por el cambio observado en el C-terminal de esta proteína en el grupo Saccharomyces sensu stricto que alteró el gen durante la divergencia de especies después del proceso de duplicación de genoma.

This Thesis was supported by the Programme ALβAN, the European Union Programme of High Level Scholarships for Latin America, scholarship No E06M103915PE.

Document Type Master thesis
Language English
Advisor(s) Carvalho, Paula
Contributor(s) Universidade do Minho
facebook logo  linkedin logo  twitter logo 
mendeley logo