Publicação

MEDIDAS DE SEMELHANÇA SEMÂNTICA APLICADAS ÀS ONTOLOGIAS GEOGRÁFICAS

Ver documento

Detalhes bibliográficos
Resumo:É cada vez mais recorrente o uso da internet na procura de informação específica, sendo que muitas vezes essa procura assenta em contextos geográficos. A informação na Web é vasta e dispersa, tendo-se observado uma evolução natural que consistiu em dotar essa informação de significado através do uso de ontologias. A presente tese descreve o trabalho desenvolvido no âmbito do projecto GREASE, que estuda métodos de recuperação e extração de informação geográfica para grandes colecções texto, com ênfase na Web. Este trabalho consistiu na implementação de várias medidas de semelhança semântica desenvolvidas anteriormente no âmbito da Linguagem Natural, e da BioInformática de modo a serem aplicadas às ontologias geográficas, bem como no desenvolvimento de estratégias de desambiguação de termos que partilhem o mesmo nome, e estratégias de cálculo da similaridade entre resumos geográficos. Foi ainda elaborado um estudo que visa encontrar quais dos métodos de semelhança semântica conhecidos, aquele que melhor se pode adaptar a uma ontologia geográfica. Este estudo permitiu concluir que as medidas de semelhança semântica que melhor se adaptam à ontologia geográfica utilizada no projecto GREASE são aquelas que usam o MICA ou o GRASM para fazer diferenciação entre pares de termos de valor de conteúdo de informação semelhantes. Adicionalmente foi também possível realizar desambiguação de referências geográficas extraídas de um site da Web através de conhecimento ontológico e do uso das medidas de semelhança semântica. Observou-se ainda que a ontologia utilizada possui poucos caminhos alternativos entre os mesmos termos, para além de apresentar alguns problemas estruturais. Estes factos interferem negativamente no processo de desambiguação das referências geográficas através do uso da semelhança semântica entre os termos da ontologia. Foi por isso proposto uma nova medida de semelhança semântica que consiste na média entre as medidas e , de modo a solucionar algumas das limitações identificadas nas medidas de semelhança semântica testadas.
Autores principais:Amoedo, Daniel António Correia
Assunto:Medidas de Semelhança Semântica Desambiguação de Termos Contextos Geográficos Ontologias Geográficas
Ano:2010
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso restrito
Instituição associada:Universidade de Lisboa
Idioma:português
Origem:Repositório da Universidade de Lisboa
Descrição
Resumo:É cada vez mais recorrente o uso da internet na procura de informação específica, sendo que muitas vezes essa procura assenta em contextos geográficos. A informação na Web é vasta e dispersa, tendo-se observado uma evolução natural que consistiu em dotar essa informação de significado através do uso de ontologias. A presente tese descreve o trabalho desenvolvido no âmbito do projecto GREASE, que estuda métodos de recuperação e extração de informação geográfica para grandes colecções texto, com ênfase na Web. Este trabalho consistiu na implementação de várias medidas de semelhança semântica desenvolvidas anteriormente no âmbito da Linguagem Natural, e da BioInformática de modo a serem aplicadas às ontologias geográficas, bem como no desenvolvimento de estratégias de desambiguação de termos que partilhem o mesmo nome, e estratégias de cálculo da similaridade entre resumos geográficos. Foi ainda elaborado um estudo que visa encontrar quais dos métodos de semelhança semântica conhecidos, aquele que melhor se pode adaptar a uma ontologia geográfica. Este estudo permitiu concluir que as medidas de semelhança semântica que melhor se adaptam à ontologia geográfica utilizada no projecto GREASE são aquelas que usam o MICA ou o GRASM para fazer diferenciação entre pares de termos de valor de conteúdo de informação semelhantes. Adicionalmente foi também possível realizar desambiguação de referências geográficas extraídas de um site da Web através de conhecimento ontológico e do uso das medidas de semelhança semântica. Observou-se ainda que a ontologia utilizada possui poucos caminhos alternativos entre os mesmos termos, para além de apresentar alguns problemas estruturais. Estes factos interferem negativamente no processo de desambiguação das referências geográficas através do uso da semelhança semântica entre os termos da ontologia. Foi por isso proposto uma nova medida de semelhança semântica que consiste na média entre as medidas e , de modo a solucionar algumas das limitações identificadas nas medidas de semelhança semântica testadas.