Document details

Insights into tuberculosis: a survival analysis of time to recurrence

Author(s): Soares, Patrícia

Date: 2014

Persistent ID: http://hdl.handle.net/10451/12156

Origin: Repositório da Universidade de Lisboa

Subject(s): Tuberculose; Recorrência; Múltipla imputação; Análise de sobrevivência; Teses de mestrado - 2014


Description

Tese de mestrado em Bioestatística, apresentada à Universidade de Lisboa, através da Faculdade de Ciências, 2014

A recorrência em tuberculose, seja devido a recaída ou a reinfecção, é um grave problema de saúde pública. A proporção de pacientes multi resistentes ou extensivamente resistentes aos antibióticos é maior entre os casos recorrentes. Algumas medidas precisam de ser implementadas de maneira a reduzir a frequência de casos recorrentes. Para compreender a recorrência é necessário compreender os factores de risco associados, o seu papel e como essa informação pode afectar estratégias futuras. O objectivo desta tese é analisar casos recorrentes de tuberculose de maneira a identificar covariáveis que influenciam o tempo desde o fim do primeiro episódio até ao início do segundo episódio. Para atingir este propósito, dados do SVIG-TB foram analisados. Apenas pacientes diagnosticados com o seu primeiro episódio entre 2002 e 2009, em Portugal, foram incluídos. A realização da vacina BCG era uma das variáveis mais interessantes para incluir devido a perdurável discussão sobre o efeito protector da vacina. No entanto, usar esta variável leva a um problema de dados omissos na base de dados. Os dados omissos variam entre um baixo valor de 0.03% para a Forma Clínica até um elevado valor de 59% para a Vacina. Uma possível explicação para a diferente quantidade de dados omissos poderá ser que cada centro de saúde pergunta questões ao paciente, inserindo essa informação no SVIG-TB. Provavelmente, alguns centros de saúde dão mais importância a algumas variáveis enquanto outros centros ignoram essas variáveis. Portanto, para evitar descartar a variável Vacina e perder a informação referente aos pacientes com dados omissos várias técnicas de imputação múltipla foram usadas. Um modelo foi ajustado aos dados completos de forma a comparar os resultados com os resultados obtidos por modelos ajustados a base de dados com os valores imputados. Um modelo foi também ajustado aos dados completos sem a variável Vacina de modo a compreender as implicações de descartar uma variável com uma grande proporção de dados omissos. Uma base de dados "completa" foi obtida através de imputação por substituição da média de modo a comparar os resultados de imputação simples com imputação múltipla. Vários métodos de imputação múltipla foram usados: Predictive Mean Matching, dois modelos diferentes de Random Forest e um modelo de Expectation-Maximization with Bootstrapping. Predictive Mean Matching apresenta, no geral, resultados consistentes na literatura. Investigação recente apresenta vantagens em imputar dados com Random Forest e Expectation-Maximization with Bootstrapping imputa dados via a máxima verosimilhança. Esta análise alerta para o perigo de descartar uma variável para efectuar uma análise de dados completos. De facto, este modelo rejeitou a variável HIV e incluíu a variável relacionada com a Residência Comunitária apresentando os resultados mais distintos comparado com os restantes modelos. A variável Álcool e Diabetes não foi significativa no modelo ajustado aos dados completos, sendo a última excluída devido a um problema de separação completa. Imputação por substituição da média, imputação via máxima verosimilhança e Random Forest missForest seleccionaram as mesmas variáveis (Vacina, Forma Clínica, Situação, Álcool, Prisão, HIV, Diabetes e idade). O modelo ajustado aos dados imputado por Predictive Mean Matching apresentou resultados semelhantes para as estimativas comparando com os restantes modelos; no entanto, não incluiu Prisão e Vacina. As duas técnicas implementadas de Random Forest tiveram resultados semelhantes mas o package mice é extremamente lento. Random Forest missForest e imputação via máxima verosimilhança apresentaram os resultados mais consistentes. Como esperado, as estimativas dos coeficientes e os erros padrão do modelo ajustado aos dados completos são maiores que as estimativas dos modelos ajustados aos dados imputados. Os valores de R2 e C são mais elevados que nos modelos ajustados aos dados imputados no entanto estes valores não podem ser correctamente comparados uma vez que os modelos são baseados em conjuntos de dados diferentes. As estimativas dos coeficientes e erros padrão, entre imputação simples e múltipla imputação, são muito semelhantes, excepto para a variável Prisão que possui um ligeiro aumento da estimativa do coeficiente. De realçar que imputação simples não introduz variabilidade no modelo, ignorando que os valores não são todos verdadeiros. Ambos os modelos ajustados aos dados imputados por Expectation-Maximization with Bootstrapping e por Random Forest missForest produzem resultados adequados. No entanto, não é possível seleccionar o "melhor" método de imputação. Cada base de dados deve ser tratada independentemente. Uma série de escolhas (como o número de imputações, o número de iteracções, o método ou métodos para imputar os dados, como incorporar interacções e não linearidades, etc) devem ser consideradas e ser tratadas com cuidado uma vez que escolhas erradas levam a estimativas incorrectas. Muitos estudos debatem sobre a eficácia da vacina BCG embora a maior parte apenas ignore este problema e não adiciona informação sobre a vacinação no modelo. A vacina foi incluída neste estudo e verificou-se significativa em alguns modelos. O efeito estimado para a variável BCG varia de 56% (modelo ajustado aos dados imputados por Expectation-Maximization with Bootstrapping) até 80% (análise de casos completos). Este resultado indica que pessoas não vacinadas tem um risco maior de sofrer um novo episódio de tuberculose comparado com pessoas vacinadas. O risco de um episódio recorrente para um indivíduo com uma forma extrapulmonar é entre 1.86 vezes (modelo ajustado aos dados imputados por Expectation-Maximization with Bootstrapping) até 2.59 vezes (modelo ajustado aos dados completos) o de um indivíduo com uma forma pulmonar de tuberculose. O risco de recorrência para indivíduos que desistiram do tratamento é entre 3 vezes (modelo ajustado aos dados imputados por Expectation-Maximization with Bootstrapping) até 9 vezes (valor semelhante para os restantes modelos) o de indivíduos que completaram o tratamento. Um indivíduo alcoólico tem um aumento entre 70% a 80% no risco de recorrência que um indivíduo sem problemas alcoólicos. As estimativas do coeficiente para a variável Prisão são mais diversas. O risco de recorrência para alguém preso é entre 3 vezes (modelo ajustado aos dados imputados por Expectation-Maximization with Bootstrapping) até 10 vezes (análise de dados completos) o de alguém que não está na prisão. O risco de um episódio recorrente para um indivíduo com HIV é entre 1.93 vezes (modelo ajustado aos dados imputados por Expectation-Maximization with Bootstrapping) até 3.29 vezes (modelo ajustado aos dados completos) o de um indivíduo sem HIV. Os resultados obtidos para as estimativas do coeficiente da variável Diabetes foram surpreendentes. A análise mostrou que indivíduos com Diabetes tem uma diminuição de 80% no risco comparado com indivíduos sem Diabetes. Em Portugal, a taxa de indivíduos não diagnosticados é de 43%, o que pode levar a uma subestimação do verdadeiro efeito da variável Diabetes. Um aumento de um ano de idade leva a uma diminuição de 1% a 2% no risco de recorrência. No entanto, é provável que algumas destas variáveis estejam correlacionadas com variáveis que não foram medidas, em particular, com a aderência ao tratamento e o estado da doença ao iniciar o tratamento. Estes resultados sugerem que a maioria dos casos de recorrência podem ser devido a uma recaída uma vez que tuberculose extrapulmonar, idade jovem e HIV são factores associados a recaída. Para concluir, estudos adicionais são necessários para confirmar estes resultados. Incluir informação acerca da aderência ao tratamento, da resistência aos antibióticos e dados de genotipagem (para distinguir entre recaída e reinfecção) é essencial. Em casos de dados omissos deve ser realizada uma imputação de dados uma vez que possui menos suposições que realizar uma análise de casos completos. Uma análise exaustiva deve ser realizada de modo a avaliar o método mais apropriado para a imputação.

Recurrence in tuberculosis is a serious health problem. To understand recurrence it is necessary to understand the risk factors associated and how that information can impact future strategies. To achieve this purpose, data from the SVIG-TB database was analyzed. Only patients diagnosed with their first episode of TB between 2002 and 2009, in Portugal, were included. The BCG vaccination was one of the most interesting variables to include in the analysis due to the long-lasting discussion about the protective effect of the vaccine. However, using this variable lead to a problem with the amount of missing data in the dataset. Therefore, to avoid discarding the variable Vaccine and lose the information regarding patients with missing information several techniques of multiple imputation were used: Predictive Mean Matching, two different models of Random Forest and a model of Expectation-Maximization with Bootstrapping. To compare the results obtained, models were fitted to the complete dataset, the complete dataset without the Vaccine and a dataset imputed by mean imputation. The model fitted to the complete dataset without the Vaccine discarded the variable HIV and included the variable regarding Residence Community presenting the most distinct results compared with the other models. Mean imputation, imputation via maximum likelihood and Random Forest missForest selected the same variables (Vaccine, Clinical Form, Situation, Alcohol, Prison, HIV, Diabetes and age). Random Forest missForest and imputation via maximum likelihood presented the most consistent results. These results suggests that the majority of the recurrence cases may be due to relapse since extrapulmonary TB, younger age and HIV are associated with relapse. To conclude, inclusion of information about treatment noncompletion, drug resistance and genotyping data (to distinguish between relapse and reinfection) is essencial. Imputation should be implemented in case of missing information since it carries less assumptions that performing a complete case analysis.

Document Type Master thesis
Language English
Advisor(s) Rocha, Cristina; Lopes, João
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents