Publicação

Data mining applied to neurorehabilitation data

Detalhes bibliográficos
Resumo:	Apesar de não serem a principal causa de morte no Mundo, as lesões cerebrais são talvez a principal razão de existirem tantos casos de pessoas que veem a sua vida quotidiana afetada. Tal acontece devido a grandes dificuldades cognitivas que podem ser derivadas de um acidente de automóvel, de uma queda, da presença de um tumor, de um acidente vascular cerebral, da exposição a substâncias tóxicas ou de uma outra qualquer situação que tenha envolvido uma lesão do cérebro. De entre este tipo de lesões podem considerar-se aquelas que são provenientes de traumas por forças externas, ou seja, as chamadas lesões cerebrais traumáticas ou traumatismos crânio-encefálicos. É precisamente em pessoas que sofreram uma lesão desse tipo que se foca este estudo. Em pessoas que, depois dessas lesões, foram sujeitas a um tratamento de neuro reabilitação. Este tratamento, baseado na realização de tarefas especialmente desenhadas para estimular a reorganização das ligações neuronais, permite que os doentes tenham a possibilidade de voltar a conseguir realizar tarefas do dia-a-dia com a menor dificuldade possível. O objetivo da realização destas tarefas é a estimulação da capacidade de plasticidade cerebral, responsável pelo desenvolvimento das conexões sinápticas desde o nascimento e que permite ao cérebro voltar a estabelecer o seu funcionamento normal depois de uma lesão. Naturalmente, o grau de afetação de uma pessoa depende do tipo de lesão e tem uma grande influência não só no tempo de recuperação física e mental, como também no seu estado final. O estudo documentado neste relatório de estágio constitui um meio para atingir um objetivo comum a outros trabalhos de investigação nesta área; pretende-se que os tratamentos de neuro reabilitação possam vir a ser personalizados para cada paciente, para que a sua recuperação seja otimizada. A ideia é que, conhecendo alguns dos dados pessoais de um doente, considerando informação sobre o seu estado inicial e através dos resultados de testes realizados, seja possível associá-lo a um determinado perfil disfuncional, de características bastante específicas, para o terapeuta poder adaptar o seu tratamento. O Institut Guttmann, em Barcelona, foi o primeiro hospital espanhol a prestar cuidados a doentes de lesões medulares. Hoje em dia, um dos seus muitos projetos chama-se GNPT Guttmann NeuroPersonalTrainer e leva a casa dos seus doentes uma plataforma que lhes permite realizar as tarefas definidas pelos terapeutas, no âmbito dos seus tratamentos de neuro reabilitação. Dados desses doentes, incluindo informação démica e resultados de testes realizados antes e depois dos tratamentos, foram cedidos pelo Institut Guttmann ao Grupo de Biomédica e Telemedicina (GBT) sob a forma de bases de dados. Através da sua análise e utilizando ferramentas de Data Mining foi possível obter perfis gerais de disfunção cognitiva e descrever a evolução desses perfis, o principal objetivo desta dissertação. Encontrar padrões em grandes volumes de dados é a principal função de um processo de Data Mining, tratando o assunto de forma muito genérica. Na verdade, é este o conceito utilizado quando são abordados temas de extração de conhecimento a partir de grandes quantidades de dados. Há diversas técnicas que o permitem fazer, que utilizam algoritmos baseados em funções estatísticas e redes neuronais e que têm vindo a ser melhoradas ao longo dos últimos anos, desde que surgiu a primeira necessidade de lidar com grandes conjuntos de elementos. O propósito é sempre o mesmo: que a análise feita a partir destas técnicas permita converter a informação oculta dos dados em informação que pode ser depois utilizada para caracterizar populações, tomar decisões ou para validar resultados. Neste caso, foram utilizados algoritmos de Clustering, um método de Data Mining que permite obter grupos de elementos semelhantes entre si, os clusters, considerando as características de cada um destes elementos. Dados de 698 doentes que sofreram um traumatismo craniano e cuja informação disponível nas bases de dados fornecidas pelo Institut Guttmann satisfazia todas as condições necessárias para serem considerados no estudo, foram integrados num Data Warehouse - um depósito de armazenamento de dados - e depois estruturados. A partir de funções criadas em SQL - a principal linguagem de consultas e organização de bases de dados relacionais - foram obtidas as pontuações correspondentes aos testes realizados pelos doentes, antes do início do tratamento e depois de este ser terminado. Estes testes visaram avaliar, utilizando cinco diferentes níveis de pontuação correspondentes a cada grau de afetação (0 para sem afetação, 1 para afetação suave, 2 para afetação moderada, 3 para afetação severa e 4 para afetação aguda), três funções estritamente relacionadas com o nível cognitivo, a atenção, a memória e algumas funções executivas. As pontuações obtidas para cada uma das funções constituem uma média ponderada da pontuação cada uma das subfunções (atenção dividida, atenção seletiva, memória de trabalho, entre outras), calculadas por pelo menos um dos 24 itens de avaliação a que cada pessoa foi sujeita. De seguida, foram determinados os grupos iniciais e finais, recorrendo a uma ferramenta muito útil para encontrar correlações em grandes conjuntos de dados, o software SPSS. Para determinar a constituição dos clusters iniciais foi aplicado um algoritmo de Clustering designado K-means e, para os finais, um outro denominado TwoStep. A principal característica desta técnica descritiva de Data Mining é a utilização da distância como medida de verificação da proximidade entre dois elementos de um cluster. Os seus algoritmos diferem no tipo de dados a que se aplicam e também na forma como calculam os agrupamentos de elementos. Para cada um dos clusters, e de acordo com cada uma das funções, foi observada a distribuição das pontuações, através de gráficos de barras. Foram também confrontados ambos os conjuntos de clusters para se poder interpretar a relação entre eles. Os clusters, que neste contexto correspondem a perfis de afetação cognitiva, foram validados, e concluiu-se que permitem descrever bem a população em estudo. Por um lado, os seis clusters iniciais determinados representam de uma forma fiel, e com muito sentido do ponto de vista clínico, os conjuntos de pessoas com características suficientemente definidas que os distinguem entre si. Já os três clusters finais, usados para retratar a população no final do tratamento e analisar as evoluções dos pacientes, retratam perfis bastante opostos, o que permitiu, de certa forma interpretar com maior facilidade para que pacientes o efeito da neuro-reabilitação foi mais ou menos positivo. Alguns estudos citados no estado de arte revelaram que algumas variáveis são suscetíveis de influenciar o estado final de um doente. Aproveitando a existência de dados suficientes para tal, foi observado se, tendo em conta os clusters finais, se poderia fazer alguma inferência sobre o efeito de algumas das variáveis – incluindo a idade, o nível de estudos, o intervalo de tempo entre a lesão e o início do tratamento e a sua duração – em cada um destes. No final, considerando apenas as pontuações dos testes em cada função, antes e depois dos tratamentos, foram analisados e interpretados, recorrendo a gráficos, os desenvolvimentos e a evolução global de cada doente. Como desenvolvimentos possíveis, foram tidos em conta os casos em que houve melhorias, agravamentos e também os casos em que os doentes mantiveram o seu estado. Fazendo uso da informação sobre a forma como evoluíram os pacientes, foi possível verificar se, de facto, utilizando apenas os valores das pontuações obtidas nos testes, se poderia ou não confirmar que outras variáveis poderiam ter efeitos na determinação do estado final de um paciente. Os gráficos obtidos demonstraram que há diferenças muito subtis considerando algumas das variáveis, principalmente entre os dos doentes que melhoraram e os dos doentes que viram a sua condição agravada. Concluiu-se que o facto de os clusters agruparem pessoas com tipos de evolução diferentes levou a que o efeito de outras variáveis se mostrasse muito disperso. O tipo de investigação sugerido para futuros desenvolvimentos inclui: (i) o estudo das outras hipóteses de perfis apresentados pelo software usado (SPSS); (ii) considerar os diferentes aspetos das funções avaliadas a um nível mais detalhado; (iii) ter em conta outras variáveis com possíveis efeitos no estado final de um doente.
Autores principais:	Carmelo, Maria Salomé Coimbra
Assunto:	Data mining Neuro reabilitação Clusters Perfis disfuncionais Teses de mestrado - 2017
Ano:	2017
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade de Lisboa
Idioma:	inglês
Origem:	Repositório da Universidade de Lisboa

Descrição
Resumo:	Apesar de não serem a principal causa de morte no Mundo, as lesões cerebrais são talvez a principal razão de existirem tantos casos de pessoas que veem a sua vida quotidiana afetada. Tal acontece devido a grandes dificuldades cognitivas que podem ser derivadas de um acidente de automóvel, de uma queda, da presença de um tumor, de um acidente vascular cerebral, da exposição a substâncias tóxicas ou de uma outra qualquer situação que tenha envolvido uma lesão do cérebro. De entre este tipo de lesões podem considerar-se aquelas que são provenientes de traumas por forças externas, ou seja, as chamadas lesões cerebrais traumáticas ou traumatismos crânio-encefálicos. É precisamente em pessoas que sofreram uma lesão desse tipo que se foca este estudo. Em pessoas que, depois dessas lesões, foram sujeitas a um tratamento de neuro reabilitação. Este tratamento, baseado na realização de tarefas especialmente desenhadas para estimular a reorganização das ligações neuronais, permite que os doentes tenham a possibilidade de voltar a conseguir realizar tarefas do dia-a-dia com a menor dificuldade possível. O objetivo da realização destas tarefas é a estimulação da capacidade de plasticidade cerebral, responsável pelo desenvolvimento das conexões sinápticas desde o nascimento e que permite ao cérebro voltar a estabelecer o seu funcionamento normal depois de uma lesão. Naturalmente, o grau de afetação de uma pessoa depende do tipo de lesão e tem uma grande influência não só no tempo de recuperação física e mental, como também no seu estado final. O estudo documentado neste relatório de estágio constitui um meio para atingir um objetivo comum a outros trabalhos de investigação nesta área; pretende-se que os tratamentos de neuro reabilitação possam vir a ser personalizados para cada paciente, para que a sua recuperação seja otimizada. A ideia é que, conhecendo alguns dos dados pessoais de um doente, considerando informação sobre o seu estado inicial e através dos resultados de testes realizados, seja possível associá-lo a um determinado perfil disfuncional, de características bastante específicas, para o terapeuta poder adaptar o seu tratamento. O Institut Guttmann, em Barcelona, foi o primeiro hospital espanhol a prestar cuidados a doentes de lesões medulares. Hoje em dia, um dos seus muitos projetos chama-se GNPT Guttmann NeuroPersonalTrainer e leva a casa dos seus doentes uma plataforma que lhes permite realizar as tarefas definidas pelos terapeutas, no âmbito dos seus tratamentos de neuro reabilitação. Dados desses doentes, incluindo informação démica e resultados de testes realizados antes e depois dos tratamentos, foram cedidos pelo Institut Guttmann ao Grupo de Biomédica e Telemedicina (GBT) sob a forma de bases de dados. Através da sua análise e utilizando ferramentas de Data Mining foi possível obter perfis gerais de disfunção cognitiva e descrever a evolução desses perfis, o principal objetivo desta dissertação. Encontrar padrões em grandes volumes de dados é a principal função de um processo de Data Mining, tratando o assunto de forma muito genérica. Na verdade, é este o conceito utilizado quando são abordados temas de extração de conhecimento a partir de grandes quantidades de dados. Há diversas técnicas que o permitem fazer, que utilizam algoritmos baseados em funções estatísticas e redes neuronais e que têm vindo a ser melhoradas ao longo dos últimos anos, desde que surgiu a primeira necessidade de lidar com grandes conjuntos de elementos. O propósito é sempre o mesmo: que a análise feita a partir destas técnicas permita converter a informação oculta dos dados em informação que pode ser depois utilizada para caracterizar populações, tomar decisões ou para validar resultados. Neste caso, foram utilizados algoritmos de Clustering, um método de Data Mining que permite obter grupos de elementos semelhantes entre si, os clusters, considerando as características de cada um destes elementos. Dados de 698 doentes que sofreram um traumatismo craniano e cuja informação disponível nas bases de dados fornecidas pelo Institut Guttmann satisfazia todas as condições necessárias para serem considerados no estudo, foram integrados num Data Warehouse - um depósito de armazenamento de dados - e depois estruturados. A partir de funções criadas em SQL - a principal linguagem de consultas e organização de bases de dados relacionais - foram obtidas as pontuações correspondentes aos testes realizados pelos doentes, antes do início do tratamento e depois de este ser terminado. Estes testes visaram avaliar, utilizando cinco diferentes níveis de pontuação correspondentes a cada grau de afetação (0 para sem afetação, 1 para afetação suave, 2 para afetação moderada, 3 para afetação severa e 4 para afetação aguda), três funções estritamente relacionadas com o nível cognitivo, a atenção, a memória e algumas funções executivas. As pontuações obtidas para cada uma das funções constituem uma média ponderada da pontuação cada uma das subfunções (atenção dividida, atenção seletiva, memória de trabalho, entre outras), calculadas por pelo menos um dos 24 itens de avaliação a que cada pessoa foi sujeita. De seguida, foram determinados os grupos iniciais e finais, recorrendo a uma ferramenta muito útil para encontrar correlações em grandes conjuntos de dados, o software SPSS. Para determinar a constituição dos clusters iniciais foi aplicado um algoritmo de Clustering designado K-means e, para os finais, um outro denominado TwoStep. A principal característica desta técnica descritiva de Data Mining é a utilização da distância como medida de verificação da proximidade entre dois elementos de um cluster. Os seus algoritmos diferem no tipo de dados a que se aplicam e também na forma como calculam os agrupamentos de elementos. Para cada um dos clusters, e de acordo com cada uma das funções, foi observada a distribuição das pontuações, através de gráficos de barras. Foram também confrontados ambos os conjuntos de clusters para se poder interpretar a relação entre eles. Os clusters, que neste contexto correspondem a perfis de afetação cognitiva, foram validados, e concluiu-se que permitem descrever bem a população em estudo. Por um lado, os seis clusters iniciais determinados representam de uma forma fiel, e com muito sentido do ponto de vista clínico, os conjuntos de pessoas com características suficientemente definidas que os distinguem entre si. Já os três clusters finais, usados para retratar a população no final do tratamento e analisar as evoluções dos pacientes, retratam perfis bastante opostos, o que permitiu, de certa forma interpretar com maior facilidade para que pacientes o efeito da neuro-reabilitação foi mais ou menos positivo. Alguns estudos citados no estado de arte revelaram que algumas variáveis são suscetíveis de influenciar o estado final de um doente. Aproveitando a existência de dados suficientes para tal, foi observado se, tendo em conta os clusters finais, se poderia fazer alguma inferência sobre o efeito de algumas das variáveis – incluindo a idade, o nível de estudos, o intervalo de tempo entre a lesão e o início do tratamento e a sua duração – em cada um destes. No final, considerando apenas as pontuações dos testes em cada função, antes e depois dos tratamentos, foram analisados e interpretados, recorrendo a gráficos, os desenvolvimentos e a evolução global de cada doente. Como desenvolvimentos possíveis, foram tidos em conta os casos em que houve melhorias, agravamentos e também os casos em que os doentes mantiveram o seu estado. Fazendo uso da informação sobre a forma como evoluíram os pacientes, foi possível verificar se, de facto, utilizando apenas os valores das pontuações obtidas nos testes, se poderia ou não confirmar que outras variáveis poderiam ter efeitos na determinação do estado final de um paciente. Os gráficos obtidos demonstraram que há diferenças muito subtis considerando algumas das variáveis, principalmente entre os dos doentes que melhoraram e os dos doentes que viram a sua condição agravada. Concluiu-se que o facto de os clusters agruparem pessoas com tipos de evolução diferentes levou a que o efeito de outras variáveis se mostrasse muito disperso. O tipo de investigação sugerido para futuros desenvolvimentos inclui: (i) o estudo das outras hipóteses de perfis apresentados pelo software usado (SPSS); (ii) considerar os diferentes aspetos das funções avaliadas a um nível mais detalhado; (iii) ter em conta outras variáveis com possíveis efeitos no estado final de um doente.