Document details

Data mining para diferenciação de tintas

Author(s): Moreira, Liliana Raquel Correia

Date: 2008

Persistent ID: http://hdl.handle.net/10451/15258

Origin: Repositório da Universidade de Lisboa

Subject(s): Espectroscopia por infravermelhos; Medidas de distância; Prospecção de dados; Aglomeração de dados; Trabalhos de projecto de mestrado - 2008


Description

A métrica de distância é uma peça fundamental para a análise de dados. Muitas metodologias de análise exigem uma quantificação da medida de proximidade entre dados, a distância, para as tarefas de agregação ou classificação. A métricas de distância tradicionais são adequadas para problemas de dados típicos e quando há uma distinção clara entre as variáveis e os dados propriamente ditos. Por outro lado, a informação de dados sequenciais, como espectros de revestimentos orgânicos, as variáveis estão muitas vezes espacialmente correlacionadas de acordo com a sua posição na sequência. Como tal, as métricas tradicionais por vezes não conseguem comparar adequadamente duas sequências de dados quando estas possuem ligeiras deslocações da mesma informação. Neste projecto é proposta ShiftedPoint, uma métrica de distância que visa conferir maior flexibilidade no que respeita à medição da distância de dados com especificidade variavelmente localizada. O método utiliza uma abordagem que utiliza a deslocação de blocos de dados de dimensão fixa, as janelas móveis, e adequadamente penaliza essas deslocações durante as comparações realizadas ao longo da sequência. A distância global entre amostras resulta do somatório de todas as comparações realizadas. Esta métrica foi avaliada pela metodologia de vizinho mais próximo para diferentes tipos de problemas de classificação e foi comprovado o aumento estatístico da sua eficácia, comparativamente à métrica de maior amplitude aplicacional, a Euclideana. ShiftedPoint revelou ser em todos os casos pelo menos tão boa, sendo na sua maioria superior.

A distance metric is a fundamental piece in data analysis. Many methods require distances for clustering or classification. Traditional distance metrics are adequate for typical datasets and problems where there are clear distinctions between variables and data. On the other hand, on sequential information, like organic coating spectra, variables are many times spatially correlated according to their position on the sequence. As such, usual metrics sometimes fail to adequately compare two patterns when these are slightly misaligned. In this paper, we propose ShiftedPoint, a distance metric that aims at conferring more flexibility in measuring the dissimilarities between data samples with locational variable specificity. The method uses a moving window approach and appropriately weights shifts when comparing sequence frames. The distance sum of all frames results in a valid global distance between samples. This metric was evaluated by testing it with a nearest neighbor classification framework for several problems and its effectiveness was proved with an overall increase in all classification statistics. ShiftedPoint proved to be in all cases at least as good as other metrics, and in the majority of cases surpassing it.

Trabalho de projecto de mestrado em Engenharia Informática, apresentado à Universidade de Lisboa, através da Faculdade de Ciências, 2008

Document Type Master thesis
Language Portuguese
Advisor(s) Falcão, André Osório e Cruz de Azerêdo, 1969-
Contributor(s) Moreira, Liliana Raquel Correia
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents