Author(s):
Batista, David Soares
Date: 2009
Persistent ID: http://hdl.handle.net/10451/13867
Origin: Repositório da Universidade de Lisboa
Subject(s): extracção de informação geográfica; ontologias geográficas; web semântica; conditional random fields
Description
Esta dissertação apresenta um estudo feito sobre extracção de informação de documentos, para geração de resumos geográficos. É estudado um método de aprendizagem supervisionada, com base em Conditional Random Fields para extracção de entidades em sequências de texto. O método estudado ´e integrado num sistema desenvolvido no âmbito desta dissertação, o HENDRIX, de forma a poder efectuar a extracção de entidades geográficas para textos em português e o seu tratamento. O tratamento das entidades geográficas extraídas é feito recorrendo a ontologias geográficas. O sistema desenvolvido foi depois usado para fazer a extracção de entidades geográficas de uma colecção de documentos, que representa uma recolha da web portuguesa, sob um cluster de computadores. São apresentados os resultados do desempenho do modelo gerado para extracção de informação geográfica e a análise das entidades geográficas extraídas da recolha da web portuguesa. A partir dos resultados observou-se que o corpus usado para treinar o modelo não é suficientemente expressivo para treinar um modelo de extracção de informação geográfica.