Document details

Geographically aware Web text mining

Author(s): Martins, Bruno

Date: 2009

Persistent ID: http://hdl.handle.net/10451/1579

Origin: Repositório da Universidade de Lisboa

Subject(s): Engenharia informática; Teses de doutoramento - 2009


Description

Tese de doutoramento em Informática (Engenharia Informática), apresentada à Universidade de Lisboa através da Faculdade de Ciências, 2009

Text mining and search have become important research areas over the past few years, mostly due to the large popularity of the Web. A natural extension for these technologies is the development of methods for exploring the geographic context of Web information. Human information needs often present specific geographic constraints. Many Web documents also refer to specific locations. However, relatively little effort has been spent on developing the facilities required for geographic access to unstructured textual information. Geographically aware text mining and search remain relatively unexplored. This thesis addresses this new area, arguing that Web text mining can be applied to extract geographic context information, and that this information can be explored for information retrieval. Fundamental questions investigated include handling geographic references in text, assigning geographic scopes to the documents, and building retrieval applications that handle/use geographic scopes. The thesis presents appropriate solutions for each of these challenges, together with a comprehensive evaluation of their effectiveness. By investigating these questions, the thesis presents several findings on how the geographic context can be effectively handled by text processing tools.

A pesquisa e prospecção de texto tornaram-se nos últimos anos importantes áreas de pesquisa, em grande parte devido à popularidade da Web. Uma extensão natural destas tecnologias é a criação de métodos para explorar o contexto geográfico da informação na Web. As necessidades de informação são muitas vezes expressas com um dado constrangimento geográfico e muitos documentos referem-se também a locais específicos. No entanto, tem sido dedicado relativamente pouco esforço ao desenvolvimento dos mecanismos necessários para a exploração geográfica de informação textual não estruturada. A prospecção e pesquisa de informação textual, cientes da geografia, permanecem relativamente inexploradas. Esta tese aborda esta problemática, levantando a hipótese de poderem ser usadas técnicas de prospecção de textos Web para extrair informação relativa ao contexto geográfico, podendo ainda esta informação ser usada na pesquisa de documentos. As questões fundamentais sob investigação incluem o processamento de referências geográficas, a atribuição de âmbitos geográficos a documentos, e a construção de aplicações de pesquisa suportando âmbitos geográficos. São descritas soluções adequadas a cada um destes desafios, e é feita uma avaliação pormenorizada da sua eficácia. Como resultado da investigação, a tese apresenta algumas conclusões sobre como pode o contexto geográfico ser considerado em aplicações de processamento de texto.

Document Type Doctoral thesis
Language English
Advisor(s) Silva, Mário Jorge Gaspar da, 1961-
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents