Publicação

Development of a machine learning-based pipeline able to predict genes associated with diseases and cell processes using interpretable network embeddings

Detalhes bibliográficos
Resumo:	A revolução tecnológica no mundo da sequenciação observada nas últimas duas décadas levou a um grande aumento no número de proteínas conhecidas. Porém, este aumento não foi correspondido com o aumento no seu número de anotações proteicas, em particular acerca do seu envolvimento em processos celulares e doenças. Atualmente, apenas cerca de 25% das proteínas humanas é conhecida por ter uma associação a uma doença. A lenta expansão de conhecimento destas associações deve-se essencialmente às técnicas experimentais necessárias para as descobrir, como por exemplo, estudos de ligação genética e genome-wide association studies, uma vez que falham quando aplicados a doenças heterogéneas, ou produzem números elevados de falsos positivos, respetivamente. Isto leva a um complexo processo de validação de resultados, que inevitavelmente desacelera o processo de anotação. O desenvolvimento de métodos capazes de produzir um número mais restrito de candidatos surge então como uma necessidade para a mais eficaz descoberta de associações, com vários tipos de métodos computacionais a terem sido desenvolvidos nas últimas décadas. Uma fração destes métodos foca-se no uso de redes. Os mecanismos de processos celulares e doenças surgem da coordenação de múltiplas proteínas que interagem fisicamente, formando módulos de doenças e de processos celulares numa rede de interações biológicas. As redes biológicas podem ser representadas sob a forma de grafos, objectos matemáticos que representam como um conjunto de entidades interage entre si. Os grafos são formados por um conjuntos de nós (ou vértices), ligados entre si por arestas, permitindo a fácil representação e análise de redes, como as de interação de proteínas. Estas redes podem então ser exploradas de forma a encontrar padrões de interação que caracterizem as proteínas que fazem parte de um determinado módulo, de modo a mais tarde expandir este conhecimento e encontrar novas proteínas candidatas que possam eventualmente estar associadas a esse mesmo módulo e ser experimentalmente validadas. A deteção dos padrões que caracterizam as proteínas associadas a cada módulo depende do uso de métricas capazes de discriminar as relações de interesse que cada proteína apresenta, podendo estas métricas ir desde a medição da distância de cada proteína ao módulo, ao uso de métodos mais complexos de difusão, tais como Random Walks with Restart. Muitos dos algoritmos já desenvolvidos focam-se no uso de métricas de proximidade, como o Closeness, que mede a centralidade de um determinado nó na rede, ou realizando um teste hipergeométrico de modo a analisar o enriquecimento de um nó em ligações com nós do módulo de interesse. A maioria dos algoritmos disponíveis na literatura baseia-se apenas na informação dada pela relação de cada nó com os nós do módulo em estudo, com uma minoria destes algoritmos a usar informação adicional de doenças fenotipicamente semelhantes. O mapeamento do interactoma humano ainda está por concluir, e, portanto, as redes de interação proteica usadas estão incompletas, faltando nós e arestas aos grafos contruídos. Para além disso, os processos de deteção de associações estão expostos à presença de falsos positivos. Tanto a incompletude das redes da interação como a presença de falsos positivos são fatores que podem afetar em larga escala as previsões de algoritmos que apenas se baseiam no próprio módulo, dificultando então o processo de seleção de novos candidatos. Será, portanto, interessante o desenvolvimento de um algoritmo capaz de usar uma maior fração dos dados ao seu dispor, sem depender do uso de informação, como a semelhança fenotípica, que permita uma maior precisão aquando da previsão de novos candidatos, mas também uma maior robustez sob a presença de alterações na rede de interação ou de anotações incorretas. Neste trabalho, é então proposto o desenvolvimento de um novo algoritmo para a previsão de novos candidatos associados com doenças ou processos celulares designado de Gene Annotation Prediction using Module-based Interpretable Network Embeddings (GAP-MINE). A maior contribuição deste algoritmo é o uso de network embeddings facilmente interpretáveis num contexto biológico. Network embeddings, são vetores usados para explicar a relação de cada nó da rede com os restantes através de um espaço multidimensional. Estes podem ser adaptados ao contexto de nosso problema, e assim explicar a relação que cada nó tem com cada módulo, criando, portanto, uma representação multidimensional que pode ser usada para descobrir os padrões que caracterizam as proteínas associadas a um determinado módulo, usando informação adicional contida no restante vetor. Para além disso, ao exprimirem a relação de cada nó com os diferentes módulos, estes vetores permitem uma melhor interpretação dos resultados, uma vez que permitem a análise dos módulos escolhidos. O algoritmo desenvolvido é composto por 6 passos que podem ser facilmente adaptados consoante a natureza do problema. Primeiramente, a rede de interação proteica foi construída utilizando as interações disponíveis na bases de dados APID e HuRI, juntamente com as anotações de associação de proteínas a processos e doenças, provenientes das bases de dados REACTOME e DisGeNET, respetivamente. A rede criada apresenta um total de 17 204 nós, ligados por 260 960 arestas. Foram criados três tipos de módulos: um de processos celulares, num total de 429, e dois do doença, que variam consoante a conectividade do módulo em si, porém tendo origem nos mesmo dados, totalizando um total de 203 aquando da utilização de módulos conectados, e de 301 aquando da utilização de módulos mais dispersos na rede. Cinco diferentes métricas foram, de seguida, aplicadas à rede (Hypergeometric Test, Closeness, Betweenness, Fraction Betweenness e Random Walks with Restart) sendo modificadas das suas formas normais de forma a explicar como cada nó se relaciona com os nós associados a um determinado módulo. Ao serem aplicadas aos diferentes módulos, é então formado um embedding para cada nó de dimensão igual ao número de módulos presentes na rede, resultando na matriz de embeddings de N vs. M dimensões, onde N é o número de nós da rede e M o número de módulos. À matriz é depois aplicado um passo de seleção, onde, para a classificação de um determinado módulo são selecionados os módulos que mais contribuem para a discriminação das proteínas associadas e não associadas ao mesmo. Tendo os módulos mais relevantes selecionados, os embeddings são fornecidos a um modelo de regressão logística, um algoritmo de classificação, que é treinado e otimizado com uma validação cruzada de 10 passos. Este algoritmo de classificação é depois avaliado usando um conjunto de teste, e aplicado para a totalidade dos dados de modo a prever as novas associações. Por fim, as associações previstas são validadas através comparação dos termos da Gene Ontology e da Human Phenotype Ontology (este último exclusivamente aplicado a proteínas de doença) em comum com os termos enriquecidos das proteínas do módulo alvo, e pela procura do identificador da proteína e do nome do módulo em títulos e resumos da literatura. O algoritmo GAP-MINE foi primeiramente comparado com um modelo padrão que apenas utiliza os valores obtidos para o módulo que se pretende classificar. Verificou-se que as Random Walks with Restart são as melhores métricas a ser usadas para a previsão de novas proteínas associadas aos módulos, obtendo valores medianos de F-Measure acima de 0.9 utilizando tanto o nosso algoritmo, como os modelos padrão. Comparando o nosso algoritmo com os modelos padrão, foi possível observar que foram obtidos resultados significativamente melhores em 2 dos 3 tipos de módulos aquando da utilização de tanto as Random Walks with Restart, como do Closeness como métricas, obtendo, no entanto, piores resultados usando Betweenness e Fraction Betweenness. Analisando as Random Walks with Restart em pormenor, foi possível verificar que a melhoria dos resultados obtidos se deveu a um aumento da precisão em todos os módulos, à custa de capturar um menor número de positivos. O mesmo comportamento foi verificado em testes feitos onde a rede utilizada foi alterada para simular casos de falta de informação ou da inclusão de falsos positivos. A combinação GAP-MINE com Random Walks with Restart foi também comparada com outros algoritmos já estabelecidos (GenePANDA, Raw e MaxLink), tendo sido observado que o nosso algoritmo é capaz de obter resultados significativamente melhores do que qualquer um dos três algoritmos. De forma geral, as previsões feitas pelo nosso algoritmo mostram-se enriquecidas em termos relevantes e relacionados com ostermos associados aos diferentes processos e doenças, tendo também sido possível verificar a presença na literatura de algumas das novas associações. Concluindo, o nosso algoritmo mostra-se ser uma alternativa capaz de prever novas associações entre proteínas e processos celulares/doenças, com uma melhoria de precisão, o que deverá facilitar o processo de validação experimental, e acelerar a descoberta de novas associações.
Autores principais:	Coelho, Alexandre Filipe dos Reis
Assunto:	Aprendizagem automática Redes Biológicas Associações Doença-Proteína Associações Processo-Proteína Network Embeddings Teses de mestrado - 2023
Ano:	2023
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade de Lisboa
Idioma:	inglês
Origem:	Repositório da Universidade de Lisboa

Descrição
Resumo:	A revolução tecnológica no mundo da sequenciação observada nas últimas duas décadas levou a um grande aumento no número de proteínas conhecidas. Porém, este aumento não foi correspondido com o aumento no seu número de anotações proteicas, em particular acerca do seu envolvimento em processos celulares e doenças. Atualmente, apenas cerca de 25% das proteínas humanas é conhecida por ter uma associação a uma doença. A lenta expansão de conhecimento destas associações deve-se essencialmente às técnicas experimentais necessárias para as descobrir, como por exemplo, estudos de ligação genética e genome-wide association studies, uma vez que falham quando aplicados a doenças heterogéneas, ou produzem números elevados de falsos positivos, respetivamente. Isto leva a um complexo processo de validação de resultados, que inevitavelmente desacelera o processo de anotação. O desenvolvimento de métodos capazes de produzir um número mais restrito de candidatos surge então como uma necessidade para a mais eficaz descoberta de associações, com vários tipos de métodos computacionais a terem sido desenvolvidos nas últimas décadas. Uma fração destes métodos foca-se no uso de redes. Os mecanismos de processos celulares e doenças surgem da coordenação de múltiplas proteínas que interagem fisicamente, formando módulos de doenças e de processos celulares numa rede de interações biológicas. As redes biológicas podem ser representadas sob a forma de grafos, objectos matemáticos que representam como um conjunto de entidades interage entre si. Os grafos são formados por um conjuntos de nós (ou vértices), ligados entre si por arestas, permitindo a fácil representação e análise de redes, como as de interação de proteínas. Estas redes podem então ser exploradas de forma a encontrar padrões de interação que caracterizem as proteínas que fazem parte de um determinado módulo, de modo a mais tarde expandir este conhecimento e encontrar novas proteínas candidatas que possam eventualmente estar associadas a esse mesmo módulo e ser experimentalmente validadas. A deteção dos padrões que caracterizam as proteínas associadas a cada módulo depende do uso de métricas capazes de discriminar as relações de interesse que cada proteína apresenta, podendo estas métricas ir desde a medição da distância de cada proteína ao módulo, ao uso de métodos mais complexos de difusão, tais como Random Walks with Restart. Muitos dos algoritmos já desenvolvidos focam-se no uso de métricas de proximidade, como o Closeness, que mede a centralidade de um determinado nó na rede, ou realizando um teste hipergeométrico de modo a analisar o enriquecimento de um nó em ligações com nós do módulo de interesse. A maioria dos algoritmos disponíveis na literatura baseia-se apenas na informação dada pela relação de cada nó com os nós do módulo em estudo, com uma minoria destes algoritmos a usar informação adicional de doenças fenotipicamente semelhantes. O mapeamento do interactoma humano ainda está por concluir, e, portanto, as redes de interação proteica usadas estão incompletas, faltando nós e arestas aos grafos contruídos. Para além disso, os processos de deteção de associações estão expostos à presença de falsos positivos. Tanto a incompletude das redes da interação como a presença de falsos positivos são fatores que podem afetar em larga escala as previsões de algoritmos que apenas se baseiam no próprio módulo, dificultando então o processo de seleção de novos candidatos. Será, portanto, interessante o desenvolvimento de um algoritmo capaz de usar uma maior fração dos dados ao seu dispor, sem depender do uso de informação, como a semelhança fenotípica, que permita uma maior precisão aquando da previsão de novos candidatos, mas também uma maior robustez sob a presença de alterações na rede de interação ou de anotações incorretas. Neste trabalho, é então proposto o desenvolvimento de um novo algoritmo para a previsão de novos candidatos associados com doenças ou processos celulares designado de Gene Annotation Prediction using Module-based Interpretable Network Embeddings (GAP-MINE). A maior contribuição deste algoritmo é o uso de network embeddings facilmente interpretáveis num contexto biológico. Network embeddings, são vetores usados para explicar a relação de cada nó da rede com os restantes através de um espaço multidimensional. Estes podem ser adaptados ao contexto de nosso problema, e assim explicar a relação que cada nó tem com cada módulo, criando, portanto, uma representação multidimensional que pode ser usada para descobrir os padrões que caracterizam as proteínas associadas a um determinado módulo, usando informação adicional contida no restante vetor. Para além disso, ao exprimirem a relação de cada nó com os diferentes módulos, estes vetores permitem uma melhor interpretação dos resultados, uma vez que permitem a análise dos módulos escolhidos. O algoritmo desenvolvido é composto por 6 passos que podem ser facilmente adaptados consoante a natureza do problema. Primeiramente, a rede de interação proteica foi construída utilizando as interações disponíveis na bases de dados APID e HuRI, juntamente com as anotações de associação de proteínas a processos e doenças, provenientes das bases de dados REACTOME e DisGeNET, respetivamente. A rede criada apresenta um total de 17 204 nós, ligados por 260 960 arestas. Foram criados três tipos de módulos: um de processos celulares, num total de 429, e dois do doença, que variam consoante a conectividade do módulo em si, porém tendo origem nos mesmo dados, totalizando um total de 203 aquando da utilização de módulos conectados, e de 301 aquando da utilização de módulos mais dispersos na rede. Cinco diferentes métricas foram, de seguida, aplicadas à rede (Hypergeometric Test, Closeness, Betweenness, Fraction Betweenness e Random Walks with Restart) sendo modificadas das suas formas normais de forma a explicar como cada nó se relaciona com os nós associados a um determinado módulo. Ao serem aplicadas aos diferentes módulos, é então formado um embedding para cada nó de dimensão igual ao número de módulos presentes na rede, resultando na matriz de embeddings de N vs. M dimensões, onde N é o número de nós da rede e M o número de módulos. À matriz é depois aplicado um passo de seleção, onde, para a classificação de um determinado módulo são selecionados os módulos que mais contribuem para a discriminação das proteínas associadas e não associadas ao mesmo. Tendo os módulos mais relevantes selecionados, os embeddings são fornecidos a um modelo de regressão logística, um algoritmo de classificação, que é treinado e otimizado com uma validação cruzada de 10 passos. Este algoritmo de classificação é depois avaliado usando um conjunto de teste, e aplicado para a totalidade dos dados de modo a prever as novas associações. Por fim, as associações previstas são validadas através comparação dos termos da Gene Ontology e da Human Phenotype Ontology (este último exclusivamente aplicado a proteínas de doença) em comum com os termos enriquecidos das proteínas do módulo alvo, e pela procura do identificador da proteína e do nome do módulo em títulos e resumos da literatura. O algoritmo GAP-MINE foi primeiramente comparado com um modelo padrão que apenas utiliza os valores obtidos para o módulo que se pretende classificar. Verificou-se que as Random Walks with Restart são as melhores métricas a ser usadas para a previsão de novas proteínas associadas aos módulos, obtendo valores medianos de F-Measure acima de 0.9 utilizando tanto o nosso algoritmo, como os modelos padrão. Comparando o nosso algoritmo com os modelos padrão, foi possível observar que foram obtidos resultados significativamente melhores em 2 dos 3 tipos de módulos aquando da utilização de tanto as Random Walks with Restart, como do Closeness como métricas, obtendo, no entanto, piores resultados usando Betweenness e Fraction Betweenness. Analisando as Random Walks with Restart em pormenor, foi possível verificar que a melhoria dos resultados obtidos se deveu a um aumento da precisão em todos os módulos, à custa de capturar um menor número de positivos. O mesmo comportamento foi verificado em testes feitos onde a rede utilizada foi alterada para simular casos de falta de informação ou da inclusão de falsos positivos. A combinação GAP-MINE com Random Walks with Restart foi também comparada com outros algoritmos já estabelecidos (GenePANDA, Raw e MaxLink), tendo sido observado que o nosso algoritmo é capaz de obter resultados significativamente melhores do que qualquer um dos três algoritmos. De forma geral, as previsões feitas pelo nosso algoritmo mostram-se enriquecidas em termos relevantes e relacionados com ostermos associados aos diferentes processos e doenças, tendo também sido possível verificar a presença na literatura de algumas das novas associações. Concluindo, o nosso algoritmo mostra-se ser uma alternativa capaz de prever novas associações entre proteínas e processos celulares/doenças, com uma melhoria de precisão, o que deverá facilitar o processo de validação experimental, e acelerar a descoberta de novas associações.