Document details

Data extraction in e-commerce

Author(s): Martins, Daniel Jorge Ribeiro Nunes

Date: 2016

Persistent ID: http://hdl.handle.net/10400.1/9877

Origin: Sapientia - Universidade do Algarve

Subject(s): Web Crawler/Robot; E-commerce; Online reputation; Revenue Management; Domínio/Área Científica::Engenharia e Tecnologia::Engenharia Eletrotécnica, Eletrónica e Informática


Description

Dissertação de mestrado, Engenharia Eléctrica e Electrónica, Instituto Superior de Engenharia, Universidade do Algarve, 2016

Eletronic commerce, know as e-commerce, is a system that consists in buying and selling produtcs/services over the internet. The internet is used by millions of people, making the management of the available information (e.g. competitor analysis market) a very difficult task for those operationg an e-commerce business. So that the managers can better position their companies against competitors, comes the need to create automatic mechanisms to extract information from various web sources (websites). The hotel business is a market where e-commerce is essential since the internet is their biggest selling point, either through sales channels or through their own websites. At the same time, these channels have important information, regarding the reputation of the hotel and their competitors, for instance in the form of guest comments. In this thesis a solution to some of those problems is presented, in which the main focus is the automatic extraction of information from sales channels, such as Booking. com. The extracted information is used to help the hoteliers in the analysis of the prices and opinions of hotel’s guests. That information will be extracted using web robots, able to analyze and interact with web pages, by simulating human behavior. This behavior simulation takes advantage of the navigation patterns present on most sales channels, so that users can easily follow the steps to the final purchase. Briefly describing the overall process, the web robot begins by filling the web site search form with a set of configurable parameters. For each hotel that met the search criteria the most relevant information is extracted, such as: prices, offers, comments and location of the hotel. The collected data is grouped and stored in an intermediate database. Once collected, the data is: (a) used by mathematical prediction models that analyze the prices of the hotels in recent years and generate a forecast of prices that hotels will practice in the future and, (b) used to check the hotel’s reputation taking into account the comments of the guests. This thesis presents a set of four papers resulting in past from the author’s work in project "SRM: Smart Revenue Management" financed by QREN I&DT, no. 38962, with promotor VISUALFORMA - Tecnologias de Informação, SA and co-promoter University of the Algarve.

A simplicidade do protocolo HTTP [19] e a extrema flexibilidade dos navegadores web (clientes HTTP) potenciaram o crescimento do número de sites e por sua vez o comércio eletrónico. O comércio eletrónico, também conhecido como e-commerce, é um sistema que consiste na compra e venda de produtos ou serviços através da internet [22]. Sendo a internet um meio de comunicação utilizado por milhões de pessoas, a gestão da informação que é disponibilizada e a análise do mercado concorrente torna-se uma tarefa bastante árdua para quem gere um negócio de e-commerce. Para que os gestores se possam posicionar melhor perante os concorrentes surge a necessidade de criar mecanismos automáticos capazes de extrair informação das várias fontes web (websites). A hotelaria é um mercado em que o e-commerce é imprescindível fazendo da internet o seu maior ponto de venda, seja através de canais de venda ou através dos seus próprios websites. Em simultâneo, os referidos canais apresentam informações importantes sobre a forma de comentários dos hóspedes, relativamente à reputação do hotel e seus concorrentes. Existem dois métodos principais para a procura de informação na web [93], sendo esses: (a) a extração manual através de cópia e colagem e a (b) extração automática através de web robots. Relativamente à extração manual, algumas empresas contratam pessoas para efetuar a extração manual dos dados. Este método consiste em procurar pela web e copiar/colar ficheiros, reformatar texto, imagens, documentos, ficheiros multimédia e outros dados. Este método de extração de dados torna-se dispendioso, pois exige bastante tempo e mão de obra. Por outro lado, para efetuar a extração de dados da web automaticamente, é necessário um crawler (web robot) para visitar as várias páginas web existentes, partindo de uma URL semente. À medida que estas URLs vão sendo visitadas pelo crawler, extraiem-se os dados da página HTML correspondente. Posteriormente por norma esses dados são armazenados numa base de dados, de forma a tornar o acesso aos dados mais eficiente. Nesta dissertação é apresentada uma solução para alguns problemas apresentados, em que o principal foco é a extração automática de informação de quatro canais de venda de reservas de alojamento, sendo esses Booking.com, Tripadvisor, Expedia e Bestday. A informação que se pretende extrair tem como função auxiliar os gestores hoteleiros a analisar a disponibilidade de quartos, os preços praticados e a opinião dos hóspedes relativamente aos hotéis concorrentes. Essa informação será extraída com recurso a web robots, capazes de analisar HTML e interagir com as páginas web simulando o comportamento humano. Esta simulação de comportamento tira partido dos canais de venda seguirem um padrão de navegação de modo a que o utilizador siga facilmente os passos até efetuar a compra. Por cada um dos canais de venda que se pretende extrair informação foi criado um web robot diferente, pois as páginas web estão estruturadas de maneira diferente. Descrevendo sucintamente o processo global, cada web robot começa por efetuar a pesquisa no formulário do respetivo website com um conjunto de parâmetros que são configuráveis. Após efetuar a pesquisa, são percorridos todos os hotéis que satisfizeram os critérios previamente definidos e de seguida é extraída a informação presente nos canais de venda, como sejam: os preços, as ofertas, os comentários e a localização do hotel. Esses dados são agrupados e armazenados numa base de dados não relacional. Nesta fase os dados armazenados estão em bruto, i.e., sem qualquer tratamento. Posteriormente, num processo independente (assíncrono), esses dados serão consolidados através de algumas regras previamente definidas de modo a eliminar redundância e a aumentar a consistência dos mesmos. Neste processo de consolidação existem várias preocupações, sendo possivelmente a principal a associação dos dados extraídos das diferentes páginas. Esta problemática surge devido à discrepância dos nomes dos hotéis nos diferentes canais de vendas. Além disso existem muitas outras discrepâncias entre os canais sendo as mais importantes: o número de estrelas das unidades hoteleiras, o nome dos quartos e a escala de pontuação dos hóspedes. Após concluído todo este processo de tratamento da informação, os dados são armazenados numa base de dados final. Ao contrário da base de dados usada na primeira fase, esta é uma base de dados relacional, o que significa que os dados estão devidamente estruturados possibilitando assim o uso por vários tipos de aplicações. Depois de recolhidos e consolidados, a finalidade dos dados é serem: (a) Utilizados por modelos de previsão matemáticos que analisam os preços praticados pelos hotéis nos últimos anos e geram uma previsão de preços que os hotéis irão praticar no futuro, e (b) utilizados para verificar a reputação dos hotéis tendo em conta os comentários dos hóspedes. Este trabalho não só apresenta a implementação dos web robots e da construção dos dados, como também uma vertente de análise da reputação dos hotéis através da análise dos comentários e pontuação dos hóspedes. A análise desses comentários e pontuações consiste em aplicar algumas regras de semântica e algumas métricas de modo a entender quais são os índices de satisfação dos hóspedes dos hotéis. Através destes indíces é possível verificar a importância de um hotel no mercado, pois num negócio são os clientes que definem o seu sucesso. Esta dissertação apresenta um conjunto de quatro artigos resultantes em parte do trabalho desenvolvido pelo autor no projeto “SRM: Smart Revenue Management” financiado pelo QREN I&DT, n.º 38962, promotor VISUALFORMA - Tecnologias de Informação, SA e co-promotor Universidade do Algarve. Abaixo segue-se a listagem dos artigos que compoem este trabalho: • Martins, D., Lam, R., Rodrigues, J.M.F., Cardoso, P.J.S., Serra, F. (2015) A Web Crawler Framework for Revenue Management, In Proc. 14th Int. Conf. on Artificial Intelligence, Knowledge Engineering and Data Bases (AIKED ’15), in Advances in Electrical and Computer Engineering, Tenerife, Canary Islands, Spain, 10-12 Jan, pp. 88-97. ISBN: 978-1-61804-279-8. • Ramos, C.M.Q., Correia, M.B., Rodrigues, J.M.F., Martins, D., Serra, F. (2015) Big Data Warehouse Framework for Smart Revenue Management. In Proc. 3rd NAUN Int. Conf. on Management, Marketing, Tourism, Retail, Finance and Computer Applications (MATREFC ’15), in Advances in Environmental Science and Energy Planning, Tenerife, Canary Islands, Spain, 10-12 Jan., pp. 13-22. ISBN: 978-1-61804-280-4. • Martins, D., Ramos, C.M.Q, Rodrigues, J.M.F., Cardoso, P.J.S., Lam, R., Serra, F. (2015) Challenges in Building a Big Data Warehouse Applied to the Hotel Business Intelligence, In Proc. 6th Int. Conf. on Applied Informatics and Computing Theory (AICT’15), in Recent Research in Applied Informatics, Salerno, Italy, 27-29 June, pp. 110-117. ISBN: 978-1-61804-313-9. • Choupina, R., Correia, M.B., Ramos, C.M.Q, Martins, D., Serra, F. (2015) Guest Reputation Indexes to Analyze the Hotel’s Online Reputation Using Data Extracted from OTAs, in Proc. 6th Int. Conf. on Applied Informatics and Computing Theory (AICT’15), in Recent Research in Applied Informatics, Salerno, Italy, 27-29 June, pp. 50-59 ISBN: 978-1-61804-313-9.

Document Type Master thesis
Language English
Advisor(s) Cardoso, Pedro J. S.; Lam, Roberto
Contributor(s) Sapientia
CC Licence
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents