Document details

Compound matching of biomedical ontologies

Author(s): Oliveira, Daniela Patrícia dos Santos

Date: 2015

Persistent ID: http://hdl.handle.net/10451/20621

Origin: Repositório da Universidade de Lisboa

Subject(s): Ontologias biomédicas; Emparelhamento de ontologias; Alinhamento de ontologias; Alinhamento composto de ontologias; Definições lógicas; Teses de mestrado - 2015; Departamento de Informática


Description

Tese de mestrado, Bioinformática e Biologia Computacional (Bioinformática)Universidade de Lisboa, Faculdade de Ciências, 2015

As ontologias biomédicas são particularmente bem sucedidas na uniformização do domínio das ciências da vida. Devido à sua recente expansão, a integração de todo o conhecimento que contêm tornou-se uma tarefa extenuante. Desta forma, foram desenvolvidos sistemas de alinhamento de ontologias para lidar com o problema, que alinham uma ontologia com outra e encontram classes que correspondem entre as duas. Contudo, novos desafios para estes sistemas estão a começar a aparecer, já que existem ontologias biomédicas que contêm relações complexas e os sistemas têm dificuldade em encontrá-las. Produzir alinhamentos compostos, ou seja, que alinham mais de duas ontologias simultaneamente, pode ser útil para o desenvolvimento de uma próxima geração de tecnologias semânticas. Desta forma, esta dissertação avança o campo de alinhamento de ontologias biomédicas com o desenvolvimento de novos algoritmos que produzem correspondências compostas entre três ontologias diferentes, uma fonte e dois alvos. O algoritmo é baseado em dois passos de comparação léxica. Num primeiro é feito o alinhamento parcial da ontologia fonte com um primeiro alvo, e no segundo apenas as palavras não mapeadas das classes fonte alinhadas são comparadas com as palavras das classes do segundo alvo. O alinhamento composto assim gerado é sujeito a um passo de seleção para encontrar a melhor correspondência possível para cada classe da fonte. Os alinhamentos resultantes foram avaliados contra seis alinhamentos de referência automaticamente inferidos a partir de definições lógicas de ontologias biomédicas da OBO Foundry, mas também foram manualmente verificados. Os resultados preliminares, usando a avaliação automática, apresentam f-measure baixa, com uma precisão mais alta, que flutua entre os 62.9 e os 11.7% e sensibilidade máxima de 60.7%. Contudo, a análise manual demonstra que, apesar do baixo desempenho contra as referências automáticas, o algoritmo estava a encontrar maioritariamente mapeamentos corretos, com uma pequena percentagem de mapeamentos incorretos. Assim, esta descoberta inspirou a investigação da possível aplicação do algoritmo na expansão e manutenção das definições lógicas. O algoritmo também foi bem sucedido no alinhamento de conjuntos ternários de ontologias do domínio das plantas.

Biomedical ontologies are particularly successful in the uniformization of the life sciences domain. Due to their recent expansion it became a strenuous task to integrate all the knowledge they encompass. So, ontology matching systems were developed to deal with the problem by aligning one ontology to another and finding matching classes. However, there are still some challenges which are not addressed by the current systems, since there are ontologies which cover complex relations and they struggle to find them. Therefore, I argue that producing “compound” alignments, which match more than two ontologies simultaneously, could be potentially useful to support a next generation of semantic technologies. This thesis advances the field of ontology matching with the development of novel algorithms that produce compound matches between three different ontologies. The overall steps of the algorithm involve matching a source ontology to a first target and, from the resulting alignment, the source classes not mapped are removed and the words already matched are ignored in the second matching step. This second step aligns those remaining words to the third ontology and returns a compound alignment, which is subjected to a selection step to find the best possible match for each source class. The resulting alignments were evaluated against six reference alignments automatically inferred from logical definition of biomedical ontologies, but they were also manually to verified. Preliminary results using the automatic evaluation approach present low f-measure, with a higher precision, which fluctuates between 62.9 and 11.7% and the higher recall is 60.7%. However, the manual analysis showed that despite the low performance against the automatic references, the algorithm was obtaining mostly correct mappings, with a very low percentage of incorrect mappings. Therefore, this finding led me to think that the reference alignments can be expanded and so, one of the possible applications of this algorithm could be to help experts add and maintain the logical definitions present in the OBO Foundry. The algorithm was also successful in its application to align several ternary sets of plant related ontologies.

Document Type Master thesis
Language English
Advisor(s) Pesquita, Cátia, 1980-
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents