Publicação

Deteção de fraude em telecomunicações através de machine learning

Detalhes bibliográficos
Resumo:	A fraude nas telecomunicações é um problema que tem originado elevadas perdas financeiras por todo o mundo. As operadoras procuram combater a fraude de forma a não perderem tanto dinheiro. No entanto, sempre que é descoberta uma maneira de combater a fraude, os fraudsters descobrem novas formas de a conseguir realizar. Nos últimos tempos, com o fim do roaming europeu, houve grandes mudanças nas telecomunicações europeias, o que levou a um crescimento da fraude na Europa. O objetivo desta dissertação foi a procura de novas formas de combater a fraude em telecomunicações, com recurso a técnicas de machine learning. Em concreto, esta dissertação debruçou-se sobre uma base de dados de uma operadora, com informação sobre chamadas recebidas numa gateway, tendo por objetivo a identificação de fraudes do tipo bypass e wangiri. Em primeiro lugar, foi desenvolvida uma análise exploratória com base em análises estatísticas, para melhor conhecimento dos dados, tendo sido criados novos atributos para ajudarem os modelos. Um atributo que teve um papel fundamental nesta dissertação foi a Range, que se baseia no agrupamento de números telefónicos, tendo em conta a variação dos últimos dígitos dos números. Posteriormente, foram desenvolvidos modelos de machine learning sem supervisão: PCA, autoencoder e LSTM autoencoder. Uma das conclusões deste trabalho é a de que os bons resultados produzidos pelo modelo PCA, sugerem que a não fraude possa ser um problema linear, apesar de produzir uma percentagem elevada de outliers. Os modelos de autoencoder por si só não produziram tão bons resultados, mas após aplicação de filtros baseados em scores (de forma a tentar quantificar a não linearidade dos dados), observou-se uma acentuada melhoria nos resultados. Os resultados preliminares obtidos com os modelos LSTM autoencoders sugerem que a sua capacidade de guardar dados em memória pode vir a produzir muito bons resultados.
Autores principais:	Caldas, Luísa Lopes
Assunto:	Fraude em telecomunicações Deteção de outliers Machine learning PCA Autoencoder LSTM autoencoder Telecommunications fraud Outlier detection
Ano:	2019
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade do Minho
Idioma:	português
Origem:	RepositóriUM - Universidade do Minho

Descrição
Resumo:	A fraude nas telecomunicações é um problema que tem originado elevadas perdas financeiras por todo o mundo. As operadoras procuram combater a fraude de forma a não perderem tanto dinheiro. No entanto, sempre que é descoberta uma maneira de combater a fraude, os fraudsters descobrem novas formas de a conseguir realizar. Nos últimos tempos, com o fim do roaming europeu, houve grandes mudanças nas telecomunicações europeias, o que levou a um crescimento da fraude na Europa. O objetivo desta dissertação foi a procura de novas formas de combater a fraude em telecomunicações, com recurso a técnicas de machine learning. Em concreto, esta dissertação debruçou-se sobre uma base de dados de uma operadora, com informação sobre chamadas recebidas numa gateway, tendo por objetivo a identificação de fraudes do tipo bypass e wangiri. Em primeiro lugar, foi desenvolvida uma análise exploratória com base em análises estatísticas, para melhor conhecimento dos dados, tendo sido criados novos atributos para ajudarem os modelos. Um atributo que teve um papel fundamental nesta dissertação foi a Range, que se baseia no agrupamento de números telefónicos, tendo em conta a variação dos últimos dígitos dos números. Posteriormente, foram desenvolvidos modelos de machine learning sem supervisão: PCA, autoencoder e LSTM autoencoder. Uma das conclusões deste trabalho é a de que os bons resultados produzidos pelo modelo PCA, sugerem que a não fraude possa ser um problema linear, apesar de produzir uma percentagem elevada de outliers. Os modelos de autoencoder por si só não produziram tão bons resultados, mas após aplicação de filtros baseados em scores (de forma a tentar quantificar a não linearidade dos dados), observou-se uma acentuada melhoria nos resultados. Os resultados preliminares obtidos com os modelos LSTM autoencoders sugerem que a sua capacidade de guardar dados em memória pode vir a produzir muito bons resultados.