Publicação
A computational pipeline to identify phenotypic manifestations related to genes
| Resumo: | Uma proporção de pacientes com doenças de neuro desenvolvimento, tem uma mutação genética diretamente ligada à sua doença. A Perturbação do Espectro do Autismo (PEA) é uma patologia de neuro desenvolvimento com apresentação clínica muito heterogênea (Cummings et al., 2005). PEA é caracterizada por ter padrões de ações ou interesses repetitivos, dificuldades/limitações em interações sociais e comunicação que se manifestam desde a infância. Estes sintomas afetam mais homens que mulheres e podem variar em severidade. Talvez o maior avanço em perceber a fisiopatologia do PEA é ter sido reconhecido a contribuição genética para a etiologia do PEA com a ajuda do aparecimento de métodos NGS e WES (Daniel H. Geschwind, 2011; Asif et al., 2018). Há vários genes e mutações associados com o PEA o que aponta a uma origem heterogenia da doença. A combinação de uma arquitetura genética complexa e pouco compreendida, heterogeneidade fenotípica e o envolvimento de múltiplos loci que interagem entre si dificulta a descoberta dos genes com mutações específicas que levam ao PEA. Consequentemente, a etiologia genética dos distúrbios relacionados ao PEA permanece em grande parte desconhecida (Gupta et al., 2006). Vários estudos demonstraram que duplicações ou deleções de segmentos do genoma denominados de Variantes de Número de Cópias (CNVs), polimorfismos de nucleotídeo único (SNPs) e variantes de nucleotídeo único (SNVs) provavelmente têm um papel causal na PEA (Chang et al., 2014; Soler et al., 2018). O estabelecimento da relação entre os diferentes genes com as variantes do fenótipo do PEA pode facilitar o diagnóstico dos pacientes e, assim, possibilitar que os pacientes obtenham o tratamento mais eficiente e específico numa idade mais jovem. Devido aos recentes avanços nas tecnologias genómicas, os estudos genéticos em larga escala estão a revelar um grande número de variantes genéticas que potencialmente contribuem para o risco de doenças. O objetivo global deste trabalho foi propor um pipeline para identificar a manifestação fenotípica de variantes genéticas putativas causadoras de doenças. Para isso, foram estabelecidos dois objetivos específicos: • Identificação de clusters de genes funcionalmente semelhantes; • Inferir o fenótipo da doença para cada cluster separadamente. Para alcançar estes objetivos, neste estudo foi usado um dataset que contem 3707 genes de pacientes diagnosticados com PEA. A este dataset são aplicadas ferramenta como o DishIn e GoSemSim para calcular o valor da semelhança semântica em pares de genes, obtendo no fim uma matriz quadrada de semelhança semântica. Este valor é obtido pelas ferramentas ao quantificar a informação partilhada entre dois termos GO, associados a cada gene, como o conteúdo de informação do ancestral comum mais informativo de dois termos. As medidas para calcular a semelhança semântica do conteúdo de informação usadas neste trabalho são Lin, Jiang & Conrath e Rel. Através da matriz de semelhança semântica é calculada a matriz de distâncias à qual são aplicados os algoritmos de clustering DBSCAN, Kmeans e hierárquico, de modo a obter grupos de genes que sejam funcionalmente semelhantes. Após a análise dos resultados, foi possível concluir que variantes genéticas podem ser agrupados usando cálculos de semelhança semântica. Demonstrou-se que os genes que foram agrupados são funcionalmente semelhantes, estavam inseridos em redes de interação genética e podem levar a diferentes grupos de fenótipos de PEA. Os genes agrupados foram enriquecidos para diferentes pathways e sub fenótipos relacionados ao PEA. |
|---|---|
| Autores principais: | Ilhéu, Ana Cristina Gonçalves |
| Assunto: | Aprendizado de máquina Clustering Semelhança semântica PEA Teses de mestrado - 2022 |
| Ano: | 2022 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | inglês |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | Uma proporção de pacientes com doenças de neuro desenvolvimento, tem uma mutação genética diretamente ligada à sua doença. A Perturbação do Espectro do Autismo (PEA) é uma patologia de neuro desenvolvimento com apresentação clínica muito heterogênea (Cummings et al., 2005). PEA é caracterizada por ter padrões de ações ou interesses repetitivos, dificuldades/limitações em interações sociais e comunicação que se manifestam desde a infância. Estes sintomas afetam mais homens que mulheres e podem variar em severidade. Talvez o maior avanço em perceber a fisiopatologia do PEA é ter sido reconhecido a contribuição genética para a etiologia do PEA com a ajuda do aparecimento de métodos NGS e WES (Daniel H. Geschwind, 2011; Asif et al., 2018). Há vários genes e mutações associados com o PEA o que aponta a uma origem heterogenia da doença. A combinação de uma arquitetura genética complexa e pouco compreendida, heterogeneidade fenotípica e o envolvimento de múltiplos loci que interagem entre si dificulta a descoberta dos genes com mutações específicas que levam ao PEA. Consequentemente, a etiologia genética dos distúrbios relacionados ao PEA permanece em grande parte desconhecida (Gupta et al., 2006). Vários estudos demonstraram que duplicações ou deleções de segmentos do genoma denominados de Variantes de Número de Cópias (CNVs), polimorfismos de nucleotídeo único (SNPs) e variantes de nucleotídeo único (SNVs) provavelmente têm um papel causal na PEA (Chang et al., 2014; Soler et al., 2018). O estabelecimento da relação entre os diferentes genes com as variantes do fenótipo do PEA pode facilitar o diagnóstico dos pacientes e, assim, possibilitar que os pacientes obtenham o tratamento mais eficiente e específico numa idade mais jovem. Devido aos recentes avanços nas tecnologias genómicas, os estudos genéticos em larga escala estão a revelar um grande número de variantes genéticas que potencialmente contribuem para o risco de doenças. O objetivo global deste trabalho foi propor um pipeline para identificar a manifestação fenotípica de variantes genéticas putativas causadoras de doenças. Para isso, foram estabelecidos dois objetivos específicos: • Identificação de clusters de genes funcionalmente semelhantes; • Inferir o fenótipo da doença para cada cluster separadamente. Para alcançar estes objetivos, neste estudo foi usado um dataset que contem 3707 genes de pacientes diagnosticados com PEA. A este dataset são aplicadas ferramenta como o DishIn e GoSemSim para calcular o valor da semelhança semântica em pares de genes, obtendo no fim uma matriz quadrada de semelhança semântica. Este valor é obtido pelas ferramentas ao quantificar a informação partilhada entre dois termos GO, associados a cada gene, como o conteúdo de informação do ancestral comum mais informativo de dois termos. As medidas para calcular a semelhança semântica do conteúdo de informação usadas neste trabalho são Lin, Jiang & Conrath e Rel. Através da matriz de semelhança semântica é calculada a matriz de distâncias à qual são aplicados os algoritmos de clustering DBSCAN, Kmeans e hierárquico, de modo a obter grupos de genes que sejam funcionalmente semelhantes. Após a análise dos resultados, foi possível concluir que variantes genéticas podem ser agrupados usando cálculos de semelhança semântica. Demonstrou-se que os genes que foram agrupados são funcionalmente semelhantes, estavam inseridos em redes de interação genética e podem levar a diferentes grupos de fenótipos de PEA. Os genes agrupados foram enriquecidos para diferentes pathways e sub fenótipos relacionados ao PEA. |
|---|