Publicação
Alternative splicing detection across different tissues in cork oak
| Resumo: | As florestas de sobreiro (Quercus suber L.) são recursos únicos e emblemáticos em Portugal, com elevado impacto económico, ecológico e social. A disponibilidade recente da sequência do genoma de sobreiro forneceu um importante contributo para revitalizar a pesquisa em temas como desenvolvimento de cortiça e melhoramento da planta, assim como promover a competitividade da indústria da cortiça. No entanto, é ainda necessário adicionar mais detalhe à anotação estrutural do genoma, nomeadamente ao nível dos transcritos, incluindo previsão de eventos de splicing alternativo. O splicing alternativo (AS) é um processo usado durante a expressão génica que origina diferentes variantes de transcritos (isoformas) e produtos proteicos a partir um único gene. No presente estudo, procedemos à análise de dezasseis bibliotecas de RNA-seq, preparadas a partir de quatro tecidos de sobreiro (folhas, felema, entrecasco e xilema), de modo a prever novas formas de AS para genes já previstos e melhorar a anotação estrutural do genoma. Um protocolo bioinformático foi definido para testar o desempenho do software HISAT2 e STAR para mapeamento de reads de RNAseq no genoma de referência, e do software Cufflinks e StringTie para (re)construção de transcritos. O alinhamento de reads no genoma efetuado com STAR resultou em taxas de mapeamento (de 84,22% a 86,86%) superiores aos resultados atingidos com HISAT2 (73,88% a 76,55%). Assim, os resultados de mapeamento com STAR foram utilizados para a (re)construção de transcritos. O uso do StringTie para este processo foi globalmente mais conservador do que com Cufflinks, gerando menos transcritos novos, mas com melhor cobertura de reads por pares de base. Para melhorar a precisão da anotação e reduzir falsos positivos, foi realizado um passo adicional de otimização com StringTie. Desta otimização resultou uma anotação que prevê a ocorrência de 7 958 novos transcritos (8% dos transcritos totais), dos quais 5 453 são novas isoformas para genes previstos na anotação de referência. Esta nova anotação foi utilizada como referência para estimar a abundância dos transcritos em cada um dos tecidos estudados e efetuar a análise de expressão diferencial. Cerca de 16% de todos os genes expressos nos quatro tecidos e que contêm intrões apresentaram splicing alternativo, e os principais eventos de splicing foram alternative acceptor site e intron retention. Grupos de transcritos com expressão diferencial entre os quatro tecidos foram identificados e a análise de enriquecimento funcional confirmou os principais processos biológicos esperados para cada tecido: os transcritos mais expressos nas folhas e no xilema estavam relacionados com a fotossíntese e com transporte, respetivamente; transcritos mais expressos na periderme (felema e entrecasco) mostraram um enriquecimento em categorias funcionais relacionadas com a síntese de suberina e outros componentes de parede celular presentes nas células de cortiça. Estes grupos específicos mostraram também um enriquecimento em transcritos envolvidos na resposta ao stresse (biótico ou abiótico). Nos tecidos que compõem a periderme, este enriquecimento foi observado principalmente no entrecasco, enquanto que no felema foi detetado um enriquecimento em transcritos envolvidos no metabolismo secundário. A presente tese permitiu a definição de um protocolo padrão que poderá ser usado para estudar o splicing alternativo no sobreiro e para uma análise mais aprofundada na nova versão do genoma, que estará disponível em breve. |
|---|---|
| Autores principais: | Barros, Pedro Miguel Rodrigues de |
| Assunto: | Quercus suber Anotação do genoma Transcrição Isoformas Diferenciação da periderme Teses de mestrado - 2017 |
| Ano: | 2017 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | inglês |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | As florestas de sobreiro (Quercus suber L.) são recursos únicos e emblemáticos em Portugal, com elevado impacto económico, ecológico e social. A disponibilidade recente da sequência do genoma de sobreiro forneceu um importante contributo para revitalizar a pesquisa em temas como desenvolvimento de cortiça e melhoramento da planta, assim como promover a competitividade da indústria da cortiça. No entanto, é ainda necessário adicionar mais detalhe à anotação estrutural do genoma, nomeadamente ao nível dos transcritos, incluindo previsão de eventos de splicing alternativo. O splicing alternativo (AS) é um processo usado durante a expressão génica que origina diferentes variantes de transcritos (isoformas) e produtos proteicos a partir um único gene. No presente estudo, procedemos à análise de dezasseis bibliotecas de RNA-seq, preparadas a partir de quatro tecidos de sobreiro (folhas, felema, entrecasco e xilema), de modo a prever novas formas de AS para genes já previstos e melhorar a anotação estrutural do genoma. Um protocolo bioinformático foi definido para testar o desempenho do software HISAT2 e STAR para mapeamento de reads de RNAseq no genoma de referência, e do software Cufflinks e StringTie para (re)construção de transcritos. O alinhamento de reads no genoma efetuado com STAR resultou em taxas de mapeamento (de 84,22% a 86,86%) superiores aos resultados atingidos com HISAT2 (73,88% a 76,55%). Assim, os resultados de mapeamento com STAR foram utilizados para a (re)construção de transcritos. O uso do StringTie para este processo foi globalmente mais conservador do que com Cufflinks, gerando menos transcritos novos, mas com melhor cobertura de reads por pares de base. Para melhorar a precisão da anotação e reduzir falsos positivos, foi realizado um passo adicional de otimização com StringTie. Desta otimização resultou uma anotação que prevê a ocorrência de 7 958 novos transcritos (8% dos transcritos totais), dos quais 5 453 são novas isoformas para genes previstos na anotação de referência. Esta nova anotação foi utilizada como referência para estimar a abundância dos transcritos em cada um dos tecidos estudados e efetuar a análise de expressão diferencial. Cerca de 16% de todos os genes expressos nos quatro tecidos e que contêm intrões apresentaram splicing alternativo, e os principais eventos de splicing foram alternative acceptor site e intron retention. Grupos de transcritos com expressão diferencial entre os quatro tecidos foram identificados e a análise de enriquecimento funcional confirmou os principais processos biológicos esperados para cada tecido: os transcritos mais expressos nas folhas e no xilema estavam relacionados com a fotossíntese e com transporte, respetivamente; transcritos mais expressos na periderme (felema e entrecasco) mostraram um enriquecimento em categorias funcionais relacionadas com a síntese de suberina e outros componentes de parede celular presentes nas células de cortiça. Estes grupos específicos mostraram também um enriquecimento em transcritos envolvidos na resposta ao stresse (biótico ou abiótico). Nos tecidos que compõem a periderme, este enriquecimento foi observado principalmente no entrecasco, enquanto que no felema foi detetado um enriquecimento em transcritos envolvidos no metabolismo secundário. A presente tese permitiu a definição de um protocolo padrão que poderá ser usado para estudar o splicing alternativo no sobreiro e para uma análise mais aprofundada na nova versão do genoma, que estará disponível em breve. |
|---|