Document details

Big data analytics : predictive consumer behaviour analysis

Author(s): Vilares, António Alberto Legoinha

Date: 2017

Persistent ID: http://hdl.handle.net/10362/24457

Origin: Repositório Institucional da UNL

Subject(s): Big Data; Data Mining; Análise de Clusters; Regras de Associação


Description

Project Work presented as the partial requirement for obtaining a Master's degree in Information Management, specialization in Knowledge Management and Business Intelligence

O trabalho realizado visa analisar o desempenho da utilização de ferramentas Big Data, para a componente de tratamento de dados e para a implementação de um algoritmo de Data Mining, nomeadamente FP-Growth para a extração de regras de associação, aplicadas ao registo de transações de produtos no mercado do retalho. Os dados extraídos visam analisar as transações realizadas pelos consumidores, de uma cadeia de supermercados, de forma a compreender quais os produtos que são adquiridas em simultâneo, análise denominada como Market Basket Analysis. Foram extraídos registos de um ano, com o histórico de compras de cada cliente. Cada registo contém todos os produtos adquiridos num espaço de um ano. Pretende-se utilizar a informação obtida para identificar produtos correlacionados, com vista a determinar quais os produtos que são frequentemente adquiridos em conjunto. Assim, pretende-se analisar os resultados obtidos e implementar novas estratégias de negócio, adaptando a oferta dos supermercados às preferências dos consumidores. Através de várias ferramentas do ecossistema Hadoop, foram analisados os dados visando eliminar qualquer inconsistência presente na base de dados e gerar novas variáveis para a aplicação de uma segmentação por perfil de consumidor e para a extração de regras de associação. Durante a execução do pré-processamento de dados foram utilizadas as ferramentas de SQL para criar um conjunto de KPIs que permitiu perceber o estado atual do negócio do supermercado. Na análise de clusters, foi decidido que seriam definidos 3 grupos. O primeiro cluster foi constituído pelos clientes de necessidades imediatas, o segundo por clientes de contas correntes e o terceiro por consumidores compulsivos. Para cada um dos clusters gerados foram identificadas um conjunto de regras de associação que permitiu entender os hábitos de consumo de cada tipo de cliente. A componente analítica foi implementada em Spark MLlib, em programação Scala. A utilização de Hadoop em conjunto com Spark permitiu a execução de forma integrada, um conjunto de funcionalidades, sendo possível recorrer a linguagens como SQL, HiveQL, Pig Latin, Python ou Scala numa única plataforma.

Document Type Master thesis
Language Portuguese
Advisor(s) Henriques, Roberto André Pereira; Rosa, Rui
Contributor(s) RUN
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents