Publicação

Evolving meaning: using genetic programming to learn similarity perspectives for mining biomedical data

Ver documento

Detalhes bibliográficos
Resumo:Nos últimos anos, as ontologias biomédicas tornaram-se fundamentais para descrever o conhecimento biológico na forma de grafos de conhecimento. Consequentemente, foram propostas várias abordagens de mineração de dados que tiram partido destes grafos de conhecimento. Estas abordagens baseiam-se em representações vetoriais que podem não capturar toda a informação semântica subjacente aos grafos. Uma abordagem alternativa consiste em utilizar a semelhança semântica como representação semântica. No entanto, como as ontologias podem modelar várias perspetivas, a semelhança semântica pode ser calculada tendo em consideração diferentes aspetos. Deste modo, diferentes tarefas de aprendizagem automática podem exigir diferentes perspetivas do grafo de conhecimento. Selecionar os aspetos semânticos mais relevantes, ou a melhor combinação destes para suportar uma determinada tarefa de aprendizagem não é trivial e, normalmente, exige conhecimento especializado. Nesta dissertação, apresentamos uma nova abordagem usando a Programação Genética sobre um conjunto de semelhanças semânticas, cada uma calculada com base num aspeto semântico dos dados, para obter a melhor combinação para uma dada tarefa de aprendizagem supervisionada. A metodologia inclui três etapas sequenciais: calcular a semelhança semântica para cada aspeto semântico; aprender a melhor combinação desses aspetos usando a Programação Genética; integrar a melhor combinação com o algoritmo de classificação. A abordagem foi avaliada em nove conjuntos de dados para prever a interação entre proteínas. Nesta aplicação, a Gene Ontology foi utilizada como grafo de conhecimento para suportar o cálculo da semelhança semântica. Como referência, utilizámos uma variação da abordagem proposta com estratégias manuais frequentemente utilizadas para combinar os aspetos semânticos. Os resultados demonstraram que as combinações obtidas com a Programação Genética superaram as combinações escolhidas manualmente que emulam o conhecimento especializado. A nossa abordagem foi também capaz de aprender modelos agnósticos em relação à espécie usando diferentes combinações de espécies para treino e teste, ultrapassando assim as limitações de prever interações entre proteínas para espécies com poucas interações conhecidas. Esta nova metodologia supera as limitações impostas pela necessidade de selecionar manualmente os aspetos semânticos que devem ser considerados para uma dada tarefa de aprendizagem. A aplicação da metodologia à previsão da interação entre proteínas foi bem-sucedida, perspetivando outras aplicações.
Autores principais:Sousa, Rita Isabel Torres de
Assunto:Semelhança semântica Programação genética Ontologia. Grafo de conhecimento Previsão da interacção entre proteínas Teses de mestrado - 2019
Ano:2019
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Universidade de Lisboa
Idioma:inglês
Origem:Repositório da Universidade de Lisboa

Registos relacionados