Publicação
Prospecção de conceitos geográficos na web
| Resumo: | Esta dissertacção apresenta um estudo feito sobre extracção de informacão de documentos, para geração de resumos geográficos. É estudado um método de aprendizagem supervisionada, com base em Conditional Random Fields para extracção de entidades em sequências de texto. O método estudado é integrado num sistema desenvolvido no âmbito desta dissertação, o HENDRIX, de forma a poder efectuar a extracção de entidades geográficas para textos em português e o seu tratamento. O tratamento das entidades geográficas extraídas é feito recorrendo a ontologias geográficas. O sistema desenvolvido foi depois usado para fazer a extracção de entidades geográficas de uma colecção de documentos, que representa uma recolha da web portuguesa, sob um cluster de computadores. São apresentados os resultados do desempenho do modelo gerado para extracção de informação geográfica e a análise das entidades geográficas extraídas da recolha da web portuguesa. A partir dos resultados observou-se que o corpus usado para treinar o modelo não é suficientemente expressivo para treinar um modelo de extracção de informação geográfica. |
|---|---|
| Autores principais: | Batista, David Soares |
| Assunto: | Extracção de informação geográfica Conditional random fields Ontologias geográficas Web semântica Teses de mestrado - 2009 |
| Ano: | 2009 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | português |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | Esta dissertacção apresenta um estudo feito sobre extracção de informacão de documentos, para geração de resumos geográficos. É estudado um método de aprendizagem supervisionada, com base em Conditional Random Fields para extracção de entidades em sequências de texto. O método estudado é integrado num sistema desenvolvido no âmbito desta dissertação, o HENDRIX, de forma a poder efectuar a extracção de entidades geográficas para textos em português e o seu tratamento. O tratamento das entidades geográficas extraídas é feito recorrendo a ontologias geográficas. O sistema desenvolvido foi depois usado para fazer a extracção de entidades geográficas de uma colecção de documentos, que representa uma recolha da web portuguesa, sob um cluster de computadores. São apresentados os resultados do desempenho do modelo gerado para extracção de informação geográfica e a análise das entidades geográficas extraídas da recolha da web portuguesa. A partir dos resultados observou-se que o corpus usado para treinar o modelo não é suficientemente expressivo para treinar um modelo de extracção de informação geográfica. |
|---|