Detalhes do Documento

Metodologias de classificação supervisionada para análise de dados de microarrays

Data: 2011

Identificador Persistente: http://hdl.handle.net/10451/3749

Origem: Repositório da Universidade de Lisboa

Assunto(s): Microarray; Classificação supervisionada; Análise de componentes principais; Data piling; Teses de doutoramento - 2011

Descrição

Tese de doutoramento, Estatística e Investigação Operacional (Probabilidades e Estatística), Universidade de Lisboa, Faculdade de Ciências, 2011

Uma das principais características dos dados de microarrays é a sua elevada dimensionalidade, sendo o número de variáveis (p) muito superior ao número de observações (n). Esta particularidade suscita problemas na análise destes dados e, em particular, na classificação dos indivíduos em grupos a partir da quantificação da expressão dos seus genes, lançando a necessidade de reduzir previamente a dimensionalidade dos dados ou de efetuar alterações aos métodos de classificação tradicionais. Esta tese apresenta uma análise comparativa do desempenho de três métodos de classificação aplicados aos dados sem redução (método dos vizinhos mais próximos e duas variantes de análise discriminante linear regularizada), com o de quinze combinações de métodos de análise de componentes principais (decomposição em valores singulares e dois métodos robustos), seguidos de métodos de classificação supervisionada (análise discriminante linear, regressão logística, árvores de classificação, redes neuronais e vizinhos mais próximos). Os diversos métodos foram aplicados a dados de cancro, tendo-se concluído que a estratégia de aplicação de análise de componentes principais seguida de classificação supervisionada é recomendada. As melhores capacidades preditivas foram obtidas através dos métodos de análise discriminante linear e regress˜ao logística aplicados aos dados reduzidos. Nesta tese, propõe-se uma nova abordagem para mostrar que qualquer conjunto de dados com p > n é linearmente separável, demonstrando-se a ocorrência do fenómeno de data piling descrito em Ahn and Marron (2010). Esta abordagem consiste na redução da dimensionalidade dos dados, através da análise de componentes principais, seguida da projecção dos dados reduzidos na direcção do vetor dos coeficientes de um modelo de regressão linear múltipla, ajustado para predizer o grupo a que cada observação pertence, a partir dos seus scores. Esta nova abordagem permitiu identificar diversas propriedades da matriz dos scores, concluir que as projecções das observações de cada grupo são todas iguais (data piling) e determinar a distância entre essas projecções.

Development in microarray technology has resulted in revolutionary changes in biomedical research. Using microarrays, the expression level of thousands of genes can be monitored simultaneously, providing investigators with new ways to gain insight into the complex interaction in living organisms. However, to do so, it is necessary to analyse large and complex data sets, with thousands of genes (p) and small sample sizes (n). In order to draw meaningful information from these data, wide ranges of statistical models, data mining, and pattern recognition tools have been applied and developed. Microarray-based class prediction has become a major topic in many medical fields, particularly in cancer research. The predictive models are built by supervised classification methods, using gene expression measurements of individuals with known class membership. This thesis presents an extensive comparative study of the performance of three classification methods applied to the complete data (nearest neighbors and two variants of regularized linear discriminant analysis) and fifteen combinations of principal components analysis methods (singular values decomposition and two robust methods), followed by supervised classification methods (linear discriminant analysis, logistic regression, classification trees, neural networks and nearest neighbors). This methods were applied to three cancer data sets. Linear discriminant analysis and logistic regression applied to reduced data, presented the best performances. A new approach to prove that every data set with p > n is linearly separable, showing the data piling phenomenon discussed by Ahn and Marron (2010), is proposed. This approach reduces data by principal components analysis and then projects the reduced data onto the multiple linear regression coefficients vector, fitted to predict the class label of an observation, based on its scores. This approach shows some interesting properties of the score matrix, shows that projections take on only two distinct values, one for each class (data piling) and calculates the distance between projections.

Fundação para a Ciência e a Tecnologia (FCT, SFRH/BD/36606/2008 e projeto FCT/OE)

Tipo de Documento Tese de doutoramento
Idioma Português
Orientador(es) Sousa, Lisete Maria Ribeiro de, 1972-; Parente, Ana Maria Pires
Contribuidor(es) Repositório da Universidade de Lisboa

Documentos Relacionados

Não existem documentos relacionados.

Sobre o RCAAP Ajuda