Document details

Predictive response mail campaign

Author(s): Oliveira, Tiago André Queirós

Date: 2016

Persistent ID: http://hdl.handle.net/10400.22/11289

Origin: Repositório Científico do Instituto Politécnico do Porto

Subject(s): Data Mining; Direct Marketing; Response Modelling; Feature Selection; Data Balancing; Classification; Sistemas de Informação e Conhecimento


Description

O marketing direto está a tornar-se cada vez mais um componente crucial para a estratégia de marketing das empresas e é um processo que inclui várias abordagens para apresentar produtos ou serviços a clientes selecionados. Uma base de dados fiável de clientes-alvo é crítica para o sucesso do marketing direto. O objetivo principal da modelação de respostas é identificar clientes com maior probabilidade de responder a um anúncio direto. Existem dois desafios comuns ao lidar com dados de marketing: dados não balanceados, onde o número de clientes que não respondem é significativamente superior ao daqueles que respondem; e conjuntos de treino com elevada dimensão dado a enorme variedade de informações que são recolhidas normalmente. Esta tese descreve todo o processo de desenvolvimento de um modelo de previsão de respostas ao mesmo tempo que apresenta e estuda diversas técnicas e metodologias ao longo dos vários passos, desde o balanceamento dos dados e seleção de variáveis até ao desenvolvimento e teste dos modelos. Adicionalmente, é proposta uma técnica de seleção de variáveis que consiste no agrupamento de várias random forests para obter resultados mais robustos. Os resultados mostram que a técnica de seleção de variáveis proposta, combinada com random under-sampling para o balanceamento dos dados, e a recente técnica Extreme Gradient Boosting, conhecida como XGBoost, têm a melhor performance.

Direct marketing is becoming a crucial part of companies advertising strategy and includes various approaches to presenting products or services to select customers. A reliable targeted customer database is critical to the success of direct marketing. The main objective of response modelling is to identify customers most likely to respond to a direct advertisement. There are two challenges commonly faced when dealing with marketing data: imbalanced data where the number of non-responding customers is significantly larger than that of responding customers; and large training datasets with high dimensionality due to the significant variety of features that are usually collected. This thesis describes the whole process of developing an efficient response prediction model while presenting and studying several different techniques and methods throughout the many steps, from data balancing and feature selection to model development and evaluation. Additionally, an ensemble feature selection technique that combines multiple random forests to yield a more robust result is proposed. The results show that the proposed feature selection method, combined with random under-sampling for class balancing, and the newer prediction technique Extreme Gradient Boosting, known as XGBoost, provide the best performance.

Document Type Master thesis
Language Portuguese
Advisor(s) Rodrigues, Maria de Fátima Coutinho
Contributor(s) Repositório Científico do Instituto Politécnico do Porto
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents