Publicação

Unraveling compound taxonomies in untargeted metabolomics through artificial intelligence

Ver documento

Detalhes bibliográficos
Resumo:A metabolómica é a identificação e quantificação do conjunto completo de metabolitos (metaboloma) numa amostra biológica – organismos inteiros, tecidos, culturas de células, etc. Metabolitos são moléculas de baixo peso molecular e apresentam-se como intermediários ou produto final de múltiplas reações enzimáticas, fazendo, portanto, parte do metabolismo das células e dando informação sobre o seu estado. Uma das principais técnicas para adquirir dados de metabolómica é a Espetrometria de Massa (MS), que se destaca pela sua elevada sensibilidade para uma grande diversidade de compostos químicos, permitindo uma maior cobertura do metaboloma. Particularmente, os Espetrómetros de Massa de Ressonância Ciclotrónica de Ião com Transformada de Fourier (FT-ICRMS) têm elevada exatidão de massa e conseguem atingir altíssimas resoluções, que resultam na reduzida necessidade de separação das amostras e permitem a identificação de padrões isotópicos de compostos de baixo peso molecular, como os metabolitos, tornando possível a atribuição desambigua da sua fórmula molecular. Antes de surgir a MS, era impossível obter as razões elementares de compostos individuais, pelo que esta caracterização era feita para amostras inteiras (ou frações destas). Em 1959, Dirk Willem van Krevlen propôs que a natureza química das amostras podia ser inferida a partir das razões elementares da amostra, o que levou ao que agora é conhecido como diagramas de van Krevlen (O/C vs H/C), que foram pela primeira vez usados para estudar amostras de petróleo e querosene. Desde então, este tipo de representação tem sido usado para a caracterização de amostras orgânicas noutro tipo de aplicações, como a caracterização das principais categorias de compostos de matéria orgânica natural. Em 2003, os diagramas de van Krevlen foram usados pela primeira vez para a representação de dados de MS em metabolómica, e desde então, têm sido bastante utilizados para o efeito. Baseado neste método de utilizar os diagramas de van Krevlen para classificar compostos, um novo método de classificação foi proposto (MSCC), que se baseia na imposição de restrições em 10 features das fórmulas químicas (O/C, H/C, N/C, P/C, N/P, O, N, P, S, e Massa) para classificar compostos em 6 categorias diferentes: Lípidos, Péptidos, Açúcares aminados, Glícidos, Nucleótidos e Compostos Fitoquímicos. Apesar deste método apresentar um aumento significativo de desempenho relativamente aos que eram baseados nos diagramas clássicos de van Krevlen, estas categorias são inespecíficas para descrever a complexidade do metaboloma de um organismo. A ChemOnt é uma taxonomia com uma hierarquia bem definida, um dicionário com anotações completas sobre cada uma das categorias, e um conjunto de regras de classificação que permitem que novas entidades (compostos) sejam também descritos. Isto permite uma classificação estrutural automática, baseada em regras bem definidas para todas as entidades químicas. A ChemOnt tem 11 níveis de classificação, sendo que os 4 primeiros níveis são, por ordem: Kingdom, Superclass, Class e Subclass. Tendo uma hierarquia bem definida, categorias bem descritas, e uma ferramenta automática de classificação de novos compostos, a ChemOnt é a taxonomia ideal para tarefas de classificação rápidas e de larga escala. A inteligência artificial tem como objetivo simular o comportamento humano em máquinas para resolver problemas complexos. O ML é uma sub-área da inteligência artificial, e faz com que as máquinas aprendam automaticamente pelos dados, sem serem explicitamente programadas para o fazer, e de forma a prever o resultado de novos dados. Algoritmos de aprendizagem supervisionada têm como objetivo fazer a correspondência entre um determinado input e o output correto, o que é feito por inferência de uma função através de dados de treino labelled. Os tipos mais comuns são tarefas de classificação, que separam os dados quando os labels representam uma variável discreta, e as tarefas de regressão quando os dados representam uma variável contínua. Este trabalho teve como principal objetivo criar um modelo de classificação de metabolitos mais robusto que o MSCC, usando métodos de inteligência artificial, que conseguem lidar com um grande número de features das fórmulas químicas, que poderão providenciar mais informação para a classificação, bem como uma taxonomia hierárquica mais descritiva. Para isso, irá aplicar-se uma estratégia hierárquica onde se usa um classificador local por cada parent node, usando algoritmos populares de ML para classificação: Random Forests (RF), K-nearest-neighbours (KNN), Logistic Regression (LR), Support Vector Machines (SVM), e Naive Bayes (NB). O dataset foi criado com compostos de 4 bases de dados diferentes: Human Metabolome Database, Kyoto Enciclopedia of Genes and Genomes Compounds, Lipid Maps Structural Database, e Chemical Entities of Biological Interest. As features usadas foram a contagem atómica de todos os elementos químicos, a sua carga, massa monoisotópica, a contagem total de alguns grupos de elementos, e as razões O/C, H/C, N/C, P/C, e N/P. Após a construção do dataset, foi feita uma divisão aleatória treino/teste de 33/67, de forma estratificada, portanto mantendo as proporções de cada classe. Para realizar o treino e tuning dos classificadores, utilizou-se o método de grid search, em que um classificador é treinado com diferentes combinações de parâmetros, com o objetivo de determinar qual o que tem a melhor generalização para dados que não foram vistos. Esta avaliação foi feita recorrendo ao método de stratified 3-fold cross-validation com o tuning baseado no F-score com média macro, que atribui o mesmo peso a cada uma das classes. A seleção das features foi realizada com base no mean decrease in Gini impurity (MDI) das RF, removendo features que estivessem correlacionadas de entre as selecionadas anteriormente A MDI revelou que de um total de 133 features, apenas 25 têm pelo menos 0.1 de importância em pelo menos um dos classificadores. Todos os classificadores necessários para a abordagem hierárquica foram treinados e otimizados com grid search usando os 5 algoritmos, e usando todas as features ou só as selecionadas para o classificador. O classificador dos compostos orgânicos ao nível da Superclass apresentava overfitting significativo. Foi testado um algoritmo de pruning (cost complexity pruning), que revelou ser ineficaz em diminuir o overfitting. Adicionalmente foram testadas duas estratégias binárias multiclass com as RF para treinar este classificador: output-code e one-vs-rest. A primeira foi aplicada diretamente com a implementação do scikit-learn. A segunda abordagem foi implementada recorrendo a um classificador binário por cada uma das classes a classificar, utilizando adicionalmente duas estratégias de amostragem aleatória do conjunto negativo de dados, de forma a combater o acentuado desequilíbrio no tamanho das classes existente no dataset. Estas abordagens revelaram também não ser eficazes para aumentar a performance do classificador. Fazendo uma média entre todos os classificadores treinados, foi possível observar que os algoritmos com melhor performance são, por ordem decrescente: RF, KNN, LR, SVM, e NB. Para o modelo de classificação, foi escolhido o melhor conjunto algoritmo/parâmetros de cada classificador, tendo sido excluído o algoritmo NB por nunca ser o único algoritmo com melhor resultado num classificador, e o SVM, uma vez que não retorna estimativas de probabilidade de previsão. Calculando a média ponderada do F1-score macro e micro no conjunto de validação dos classificadores em cada nível de classificação, foi possível concluir que a performance local dos classificadores não diminui ao longo de cada nível, permanecendo entre os 87-89% de exatidão nos 3 níveis de classificação para além do primeiro, que tem uma performance naturalmente melhor. O facto do F1-score macro ser melhor no último nível também indica que, mesmo com categorias mais específicas, a abordagem hierárquica é capaz de as distinguir e também que a composição química tem informação suficiente para o fazer. Relativamente à performance da abordagem hierárquica utilizada, também foi possível concluir que foi melhor que uma abordagem que não considerasse a hierarquia entre categorias do mesmo nível, particularmente para a classificação de classes mais pequenas e para diminuir a quantidade de recursos computacionais necessários para treinar um único classificador por nível. Para avaliar a performance do modelo de classificação, foram realizados dois tipos de validação: com o conjunto de teste do dataset inicial, e com dados de metabolómica de FT-ICR-MS. Para a previsão, foi utilizada uma abordagem top-down, assim como uma estratégia de blocking, onde a probabilidade de previsão multiplicativa em cada nível de previsão é sujeita a diferentes thresholds. Usando esta estratégia, a maioria dos compostos conseguem manter os 4 níveis de classificação com uma probabilidade maior ou igual a 0.95. O F1-score micro (exatidão), expectavelmente desce ao longo dos níveis da hierarquia. O nível Kingdom tem uma classificação praticamente perfeita (exatidão = 99,98%), no nível Superclass a exatidão é de 88,4% com 3 categorias (de 26) que não são previstas, no nível Class a exatidão é de 79,7% com 74 categorias (de 311) não previstas, e no nível Subclass a exatidão é de 74,6% com 192 categorias (de 724) não previstas. Comparando os resultados da estratégia de blocking, conclui-se também que se deve ter em atenção ao balanço entre a exatidão e a cobertura de compostos com previsão. Para a validação experimental foram usados dados obtidos por FT-ICR-MS de amostras de levedura, bem como de impressões digitais humanas. Apenas foram previstos “Compostos Orgânicos” em ambos os conjuntos de dados, com 100% de exatidão, sendo que no nível Superclass a exatidão é >92%, no nível Class >87% e no nível Subclass >78%.
Autores principais:Silva, Henrique dos Santos
Assunto:Metabolómica FT-ICR-MS Classificação de metabolitos Aprendizagem Automática Teses de mestrado - 2023
Ano:2023
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Universidade de Lisboa
Idioma:inglês
Origem:Repositório da Universidade de Lisboa
Descrição
Resumo:A metabolómica é a identificação e quantificação do conjunto completo de metabolitos (metaboloma) numa amostra biológica – organismos inteiros, tecidos, culturas de células, etc. Metabolitos são moléculas de baixo peso molecular e apresentam-se como intermediários ou produto final de múltiplas reações enzimáticas, fazendo, portanto, parte do metabolismo das células e dando informação sobre o seu estado. Uma das principais técnicas para adquirir dados de metabolómica é a Espetrometria de Massa (MS), que se destaca pela sua elevada sensibilidade para uma grande diversidade de compostos químicos, permitindo uma maior cobertura do metaboloma. Particularmente, os Espetrómetros de Massa de Ressonância Ciclotrónica de Ião com Transformada de Fourier (FT-ICRMS) têm elevada exatidão de massa e conseguem atingir altíssimas resoluções, que resultam na reduzida necessidade de separação das amostras e permitem a identificação de padrões isotópicos de compostos de baixo peso molecular, como os metabolitos, tornando possível a atribuição desambigua da sua fórmula molecular. Antes de surgir a MS, era impossível obter as razões elementares de compostos individuais, pelo que esta caracterização era feita para amostras inteiras (ou frações destas). Em 1959, Dirk Willem van Krevlen propôs que a natureza química das amostras podia ser inferida a partir das razões elementares da amostra, o que levou ao que agora é conhecido como diagramas de van Krevlen (O/C vs H/C), que foram pela primeira vez usados para estudar amostras de petróleo e querosene. Desde então, este tipo de representação tem sido usado para a caracterização de amostras orgânicas noutro tipo de aplicações, como a caracterização das principais categorias de compostos de matéria orgânica natural. Em 2003, os diagramas de van Krevlen foram usados pela primeira vez para a representação de dados de MS em metabolómica, e desde então, têm sido bastante utilizados para o efeito. Baseado neste método de utilizar os diagramas de van Krevlen para classificar compostos, um novo método de classificação foi proposto (MSCC), que se baseia na imposição de restrições em 10 features das fórmulas químicas (O/C, H/C, N/C, P/C, N/P, O, N, P, S, e Massa) para classificar compostos em 6 categorias diferentes: Lípidos, Péptidos, Açúcares aminados, Glícidos, Nucleótidos e Compostos Fitoquímicos. Apesar deste método apresentar um aumento significativo de desempenho relativamente aos que eram baseados nos diagramas clássicos de van Krevlen, estas categorias são inespecíficas para descrever a complexidade do metaboloma de um organismo. A ChemOnt é uma taxonomia com uma hierarquia bem definida, um dicionário com anotações completas sobre cada uma das categorias, e um conjunto de regras de classificação que permitem que novas entidades (compostos) sejam também descritos. Isto permite uma classificação estrutural automática, baseada em regras bem definidas para todas as entidades químicas. A ChemOnt tem 11 níveis de classificação, sendo que os 4 primeiros níveis são, por ordem: Kingdom, Superclass, Class e Subclass. Tendo uma hierarquia bem definida, categorias bem descritas, e uma ferramenta automática de classificação de novos compostos, a ChemOnt é a taxonomia ideal para tarefas de classificação rápidas e de larga escala. A inteligência artificial tem como objetivo simular o comportamento humano em máquinas para resolver problemas complexos. O ML é uma sub-área da inteligência artificial, e faz com que as máquinas aprendam automaticamente pelos dados, sem serem explicitamente programadas para o fazer, e de forma a prever o resultado de novos dados. Algoritmos de aprendizagem supervisionada têm como objetivo fazer a correspondência entre um determinado input e o output correto, o que é feito por inferência de uma função através de dados de treino labelled. Os tipos mais comuns são tarefas de classificação, que separam os dados quando os labels representam uma variável discreta, e as tarefas de regressão quando os dados representam uma variável contínua. Este trabalho teve como principal objetivo criar um modelo de classificação de metabolitos mais robusto que o MSCC, usando métodos de inteligência artificial, que conseguem lidar com um grande número de features das fórmulas químicas, que poderão providenciar mais informação para a classificação, bem como uma taxonomia hierárquica mais descritiva. Para isso, irá aplicar-se uma estratégia hierárquica onde se usa um classificador local por cada parent node, usando algoritmos populares de ML para classificação: Random Forests (RF), K-nearest-neighbours (KNN), Logistic Regression (LR), Support Vector Machines (SVM), e Naive Bayes (NB). O dataset foi criado com compostos de 4 bases de dados diferentes: Human Metabolome Database, Kyoto Enciclopedia of Genes and Genomes Compounds, Lipid Maps Structural Database, e Chemical Entities of Biological Interest. As features usadas foram a contagem atómica de todos os elementos químicos, a sua carga, massa monoisotópica, a contagem total de alguns grupos de elementos, e as razões O/C, H/C, N/C, P/C, e N/P. Após a construção do dataset, foi feita uma divisão aleatória treino/teste de 33/67, de forma estratificada, portanto mantendo as proporções de cada classe. Para realizar o treino e tuning dos classificadores, utilizou-se o método de grid search, em que um classificador é treinado com diferentes combinações de parâmetros, com o objetivo de determinar qual o que tem a melhor generalização para dados que não foram vistos. Esta avaliação foi feita recorrendo ao método de stratified 3-fold cross-validation com o tuning baseado no F-score com média macro, que atribui o mesmo peso a cada uma das classes. A seleção das features foi realizada com base no mean decrease in Gini impurity (MDI) das RF, removendo features que estivessem correlacionadas de entre as selecionadas anteriormente A MDI revelou que de um total de 133 features, apenas 25 têm pelo menos 0.1 de importância em pelo menos um dos classificadores. Todos os classificadores necessários para a abordagem hierárquica foram treinados e otimizados com grid search usando os 5 algoritmos, e usando todas as features ou só as selecionadas para o classificador. O classificador dos compostos orgânicos ao nível da Superclass apresentava overfitting significativo. Foi testado um algoritmo de pruning (cost complexity pruning), que revelou ser ineficaz em diminuir o overfitting. Adicionalmente foram testadas duas estratégias binárias multiclass com as RF para treinar este classificador: output-code e one-vs-rest. A primeira foi aplicada diretamente com a implementação do scikit-learn. A segunda abordagem foi implementada recorrendo a um classificador binário por cada uma das classes a classificar, utilizando adicionalmente duas estratégias de amostragem aleatória do conjunto negativo de dados, de forma a combater o acentuado desequilíbrio no tamanho das classes existente no dataset. Estas abordagens revelaram também não ser eficazes para aumentar a performance do classificador. Fazendo uma média entre todos os classificadores treinados, foi possível observar que os algoritmos com melhor performance são, por ordem decrescente: RF, KNN, LR, SVM, e NB. Para o modelo de classificação, foi escolhido o melhor conjunto algoritmo/parâmetros de cada classificador, tendo sido excluído o algoritmo NB por nunca ser o único algoritmo com melhor resultado num classificador, e o SVM, uma vez que não retorna estimativas de probabilidade de previsão. Calculando a média ponderada do F1-score macro e micro no conjunto de validação dos classificadores em cada nível de classificação, foi possível concluir que a performance local dos classificadores não diminui ao longo de cada nível, permanecendo entre os 87-89% de exatidão nos 3 níveis de classificação para além do primeiro, que tem uma performance naturalmente melhor. O facto do F1-score macro ser melhor no último nível também indica que, mesmo com categorias mais específicas, a abordagem hierárquica é capaz de as distinguir e também que a composição química tem informação suficiente para o fazer. Relativamente à performance da abordagem hierárquica utilizada, também foi possível concluir que foi melhor que uma abordagem que não considerasse a hierarquia entre categorias do mesmo nível, particularmente para a classificação de classes mais pequenas e para diminuir a quantidade de recursos computacionais necessários para treinar um único classificador por nível. Para avaliar a performance do modelo de classificação, foram realizados dois tipos de validação: com o conjunto de teste do dataset inicial, e com dados de metabolómica de FT-ICR-MS. Para a previsão, foi utilizada uma abordagem top-down, assim como uma estratégia de blocking, onde a probabilidade de previsão multiplicativa em cada nível de previsão é sujeita a diferentes thresholds. Usando esta estratégia, a maioria dos compostos conseguem manter os 4 níveis de classificação com uma probabilidade maior ou igual a 0.95. O F1-score micro (exatidão), expectavelmente desce ao longo dos níveis da hierarquia. O nível Kingdom tem uma classificação praticamente perfeita (exatidão = 99,98%), no nível Superclass a exatidão é de 88,4% com 3 categorias (de 26) que não são previstas, no nível Class a exatidão é de 79,7% com 74 categorias (de 311) não previstas, e no nível Subclass a exatidão é de 74,6% com 192 categorias (de 724) não previstas. Comparando os resultados da estratégia de blocking, conclui-se também que se deve ter em atenção ao balanço entre a exatidão e a cobertura de compostos com previsão. Para a validação experimental foram usados dados obtidos por FT-ICR-MS de amostras de levedura, bem como de impressões digitais humanas. Apenas foram previstos “Compostos Orgânicos” em ambos os conjuntos de dados, com 100% de exatidão, sendo que no nível Superclass a exatidão é >92%, no nível Class >87% e no nível Subclass >78%.