Document details

População e Enriquecimento de Ontologias através de Web Scraping

Author(s): Barreira, Elisa da Conceição Marques

Date: 2014

Persistent ID: http://hdl.handle.net/10400.22/5730

Origin: Repositório Científico do Instituto Politécnico do Porto

Subject(s): World Wide Web; Web Scraping; Internet


Description

O surgir da World Wide Web providenciou aos utilizadores uma série de oportunidades no que diz respeito ao acesso a dados e informação. Este acesso tornou-se um ato banal para qualquer utilizador da Web, tanto pelo utilizador comum como por outros mais experientes, tanto para obter informações básicas, como outras informações mais complexas. Todo este avanço tecnológico permitiu que os utilizadores tivessem acesso a uma vasta quantidade de informação, dispersa pelo globo, não tendo, na maior parte das vezes, a informação qualquer tipo de ligação entre si. A necessidade de se obter informação de interesse relativamente a determinado tema, mas tendo que recorrer a diversas fontes para obter toda a informação que pretende obter e comparar, torna-se um processo moroso para o utilizador. Pretende-se que este processo de recolha de informação de páginas web seja o mais automatizado possível, dando ao utilizador a possibilidade de utilizar algoritmos e ferramentas de análise e processamento automáticas, reduzindo desta forma o tempo e esforço de realização de tarefas sobre páginas web. Este processo é denominado Web Scraping. Neste trabalho é descrita uma arquitetura de sistema de web scraping automático e configurável baseado em tecnologias existentes, nomeadamente no contexto da web semântica. Para tal o trabalho desenvolvido analisa os efeitos da aplicação do Web Scraping percorrendo os seguintes pontos: • Identificação e análise de diversas ferramentas de web scraping; • Identificação do processo desenvolvido pelo ser humano complementar às atuais ferramentas de web scraping; • Design duma arquitetura complementar às ferramentas de web scraping que dê apoio ao processo de web scraping do utilizador; • Desenvolvimento dum protótipo baseado em ferramentas e tecnologias existentes; • Realização de experiências no domínio de aplicação de páginas de super-mercados portugueses; • Analisar resultados obtidos a partir destas.

The rise of the World Wide Web has provided users with a lot of opportunities with regard to access to data and information. This access has become a banal act for any user of the Web by both the common user as for more experienced users, both for basic information, and more complex information. All this technological development has enabled users to have access to a vast amount of information scattered over the globe and they do not have, in most cases, any information linked. The need to obtain information of interest for a given topic, but having to use various sources to get all the information you want to obtain and compare it becomes a time consuming process for the user. It is intended that this process of gathering information from web pages is as automated as possible, giving the user the possibility of using algorithms and analysis tools and automatic processing, thereby reducing the time and effort embodiment tasks on web pages. This process is called Web Scraping. It is described an architecture for automated web scraping and configurable system based on existing technologies, particularly in the context of semantic web. For this, the developed work analyzes the effects of applying Web Scraping covering the following points: • Identification and analysis of various tools for web scraping; • Identification of additional process developed by man to supplement current web scraping tools; • Design of a complement to the architecture of web scraping tool that gives support to the scraping web user process; • Development of a prototype based on existing tools and technologies; • Conducting experiments in the portuguese super markets domain; • Analyzing the experiments’ results.

Document Type Master thesis
Language Portuguese
Advisor(s) Maio, Paulo; Silva, Nuno
Contributor(s) Repositório Científico do Instituto Politécnico do Porto
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents