Publicação
Modelação do tempo até ao diagnóstico da tuberculose em Portugal
| Resumo: | A tuberculose é uma doença infecciosa transmitida por via aérea através da inalação de gotículas, expelidas pela tosse, fala ou espirro. Esta doença é causada pela bactéria Mycobacterium tuberculosis (MTB) e afeta, por norma, os pulmões, embora possa também afetar outras partes do corpo. Na última década, o tempo decorrido entre o início dos sintomas e o diagnóstico de tuberculose tem vindo a aumentar, em Portugal. Um tempo longo até ao diagnóstico é um problema de saúde pública importante, uma vez que o contágio ocorre até a pessoa infetada começar o tratamento. Assim sendo, este trabalho tem como objetivo a identificação dos fatores que têm algum tipo de associação com o tempo até ao diagnóstico da doença. A presença de dados omissos, em registos não designados para investigação, é comum. No presente estudo, analisaram-se dados provenientes da base de dados do Sistema de Vigilância da Tuberculose (SVIG-TB) correspondente ao período entre 1 de janeiro de 2008 e 31 de dezembro de 2017. Os dados dizem respeito a indivíduos que foram diagnosticados com tuberculose pulmonar no período referido e contêm também informação acerca de características sociodemográficas e clínicas dos indivíduos em estudo. Ao executar uma análise preliminar aos dados, constatou-se que existiam valores omissos em múltiplas covariáveis, bem como na variável resposta, em percentagens entre 0,3% e 13,87%. Percebeu-se que com a quantidade de valores omissos presentes na base de dados aqui estudada, o melhor caminho não seria a simples eliminação dos indivíduos para os quais existiam estes valores. Escolher este caminho, com as percentagens de valores omissos existentes, poderia levar a estimativas enviesadas. De acordo com a literatura, a melhor solução para este problema seria recorrer a métodos de imputação, de forma a preservar o máximo de informação possível. Assim sendo, recorrendo à técnica de imputação múltipla através de equações encadeadas, foram obtidos dados com valores imputados. Nesta altura decidiu-se que seria bastante interessante explorar a comparação entre os resultados obtidos com a análise, tanto da base de dados com imputações como da base de dados completa, de forma a tentar perceber as consequências da análise de casos completos. De forma a identificar os fatores que têm influência no tempo até ao diagnóstico da doença, foram utilizados modelos de regressão, mais concretamente o modelo semiparamétrico de Cox e os modelos paramétricos Weibull e log-logístico. Os resultados demonstraram que ser seropositivo corresponde a um aumento entre 24% e 27,63% no risco de diagnóstico. Morar no Centro corresponde a um aumento no risco de diagnóstico entre 21,4% e 24,9%, comparativamente a morar em Lisboa e Vale do Tejo. Apesar da existência de concordância, para ambas as base de dados, de alguns resultados, observou-se também a presença de diferenças. Tome-se como exemplo a variável Sem_Abrigo. Os resultados obtidos através da análise da base de dados com valores imputados são que esta não tem uma influência significativa no tempo até ao diagnóstico, no entanto, para a base de dados completos, ser sem abrigo corresponde a um acréscimo entre 35,5% e 37,7% no tempo até ao diagnóstico. A existência deste tipo de discrepâncias vem a dar ênfase à importância da análise dos valores omissos, previamente a proceder a qualquer tipo de técnica. A simples eliminação dos valores omissos poderá ter consequências graves na veracidade dos resultados. Previamente a proceder a técnicas de imputação, quando esta opção é a indicada, dever-se-á procurar perceber o tipo presente de mecanismo de omissão de dados. Uma análise menos rigorosa deste tipo de dados poderá comprometer todo o estudo. |
|---|---|
| Autores principais: | Castanheira, Ana Lúcia Viana |
| Assunto: | análise de sobrevivência dados omissos imputação múltipla tuberculose Trabalhos de projeto de mestrado - 2022 |
| Ano: | 2022 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | português |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | A tuberculose é uma doença infecciosa transmitida por via aérea através da inalação de gotículas, expelidas pela tosse, fala ou espirro. Esta doença é causada pela bactéria Mycobacterium tuberculosis (MTB) e afeta, por norma, os pulmões, embora possa também afetar outras partes do corpo. Na última década, o tempo decorrido entre o início dos sintomas e o diagnóstico de tuberculose tem vindo a aumentar, em Portugal. Um tempo longo até ao diagnóstico é um problema de saúde pública importante, uma vez que o contágio ocorre até a pessoa infetada começar o tratamento. Assim sendo, este trabalho tem como objetivo a identificação dos fatores que têm algum tipo de associação com o tempo até ao diagnóstico da doença. A presença de dados omissos, em registos não designados para investigação, é comum. No presente estudo, analisaram-se dados provenientes da base de dados do Sistema de Vigilância da Tuberculose (SVIG-TB) correspondente ao período entre 1 de janeiro de 2008 e 31 de dezembro de 2017. Os dados dizem respeito a indivíduos que foram diagnosticados com tuberculose pulmonar no período referido e contêm também informação acerca de características sociodemográficas e clínicas dos indivíduos em estudo. Ao executar uma análise preliminar aos dados, constatou-se que existiam valores omissos em múltiplas covariáveis, bem como na variável resposta, em percentagens entre 0,3% e 13,87%. Percebeu-se que com a quantidade de valores omissos presentes na base de dados aqui estudada, o melhor caminho não seria a simples eliminação dos indivíduos para os quais existiam estes valores. Escolher este caminho, com as percentagens de valores omissos existentes, poderia levar a estimativas enviesadas. De acordo com a literatura, a melhor solução para este problema seria recorrer a métodos de imputação, de forma a preservar o máximo de informação possível. Assim sendo, recorrendo à técnica de imputação múltipla através de equações encadeadas, foram obtidos dados com valores imputados. Nesta altura decidiu-se que seria bastante interessante explorar a comparação entre os resultados obtidos com a análise, tanto da base de dados com imputações como da base de dados completa, de forma a tentar perceber as consequências da análise de casos completos. De forma a identificar os fatores que têm influência no tempo até ao diagnóstico da doença, foram utilizados modelos de regressão, mais concretamente o modelo semiparamétrico de Cox e os modelos paramétricos Weibull e log-logístico. Os resultados demonstraram que ser seropositivo corresponde a um aumento entre 24% e 27,63% no risco de diagnóstico. Morar no Centro corresponde a um aumento no risco de diagnóstico entre 21,4% e 24,9%, comparativamente a morar em Lisboa e Vale do Tejo. Apesar da existência de concordância, para ambas as base de dados, de alguns resultados, observou-se também a presença de diferenças. Tome-se como exemplo a variável Sem_Abrigo. Os resultados obtidos através da análise da base de dados com valores imputados são que esta não tem uma influência significativa no tempo até ao diagnóstico, no entanto, para a base de dados completos, ser sem abrigo corresponde a um acréscimo entre 35,5% e 37,7% no tempo até ao diagnóstico. A existência deste tipo de discrepâncias vem a dar ênfase à importância da análise dos valores omissos, previamente a proceder a qualquer tipo de técnica. A simples eliminação dos valores omissos poderá ter consequências graves na veracidade dos resultados. Previamente a proceder a técnicas de imputação, quando esta opção é a indicada, dever-se-á procurar perceber o tipo presente de mecanismo de omissão de dados. Uma análise menos rigorosa deste tipo de dados poderá comprometer todo o estudo. |
|---|