Publicação

Seleção de variáveis na presença de valores omissos: uma aplicação na modelação do índice de massa corporal nos imigrantes africanos e brasileiros

Ver documento

Detalhes bibliográficos
Resumo:Os dados omissos são muito comuns em estudos clínicos e epidemiológicos. Os métodos usados por diversos programas estatísticos para tratar este tipo de problema (por exemplo, a rejeição total dos registos com observações omissas nalguma das variáveis – análise dos casos completos (CC)) nem sempre são satisfatórios. De facto, se os indivíduos com valores omissos diferirem significativamente dos com valores observados, então, não considerar os dados incompletos, poderá enviesar os resultados do estudo. Existem diversas técnicas para tratar dados omissos, nomeadamente a substituição dos valores omissos por valores considerados plausíveis, por um único valor (imputação simples) ou por vários (imputação múltipla). Esta investigação pretende avaliar o impacto de diferentes técnicas para tratamento de valores omissos na escolha de variáveis em modelos de regressão, cuja variável resposta é o índice de massa corporal (IMC). A amostra é formada por 1980 imigrantes brasileiros e africanos a viver em Portugal. Os dados foram recolhidos no âmbito do estudo de Saúde dos imigrantes, realizado em 2007. Elaboraram-se três cenários de dados omissos: 1) cenário real, com tratamento da variável com maior percentagem de dados omissos – escolaridade (6.8%); 2) simulação da existência de 20% de dados omissos na mesma variável; 3) simulação da existência de 20% de dados omissos na variável idade que está fortemente associada ao IMC. A análise CC e as técnicas de imputação conduziram a resultados semelhantes no primeiro cenário. Nos cenários 2 e 3, as técnicas de imputação revelaram-se superiores à análise CC. Os resultados deste trabalho sugerem que a existência de uma baixa percentagem de dados omissos, numa variável explicativa pouco associada com a variável resposta, parece ter poucas implicações nos resultados finais, independentemente da técnica escolhida para lidar com os dados omissos. No caso de percentagens elevadas de dados omissos, a análise CC é claramente inferior às técnicas de imputação.
Autores principais:Goulão, Beatriz Preto Barrocas Afonso
Assunto:Bioestatística Teses de mestrado - 2013
Ano:2013
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Universidade de Lisboa
Idioma:português
Origem:Repositório da Universidade de Lisboa
Descrição
Resumo:Os dados omissos são muito comuns em estudos clínicos e epidemiológicos. Os métodos usados por diversos programas estatísticos para tratar este tipo de problema (por exemplo, a rejeição total dos registos com observações omissas nalguma das variáveis – análise dos casos completos (CC)) nem sempre são satisfatórios. De facto, se os indivíduos com valores omissos diferirem significativamente dos com valores observados, então, não considerar os dados incompletos, poderá enviesar os resultados do estudo. Existem diversas técnicas para tratar dados omissos, nomeadamente a substituição dos valores omissos por valores considerados plausíveis, por um único valor (imputação simples) ou por vários (imputação múltipla). Esta investigação pretende avaliar o impacto de diferentes técnicas para tratamento de valores omissos na escolha de variáveis em modelos de regressão, cuja variável resposta é o índice de massa corporal (IMC). A amostra é formada por 1980 imigrantes brasileiros e africanos a viver em Portugal. Os dados foram recolhidos no âmbito do estudo de Saúde dos imigrantes, realizado em 2007. Elaboraram-se três cenários de dados omissos: 1) cenário real, com tratamento da variável com maior percentagem de dados omissos – escolaridade (6.8%); 2) simulação da existência de 20% de dados omissos na mesma variável; 3) simulação da existência de 20% de dados omissos na variável idade que está fortemente associada ao IMC. A análise CC e as técnicas de imputação conduziram a resultados semelhantes no primeiro cenário. Nos cenários 2 e 3, as técnicas de imputação revelaram-se superiores à análise CC. Os resultados deste trabalho sugerem que a existência de uma baixa percentagem de dados omissos, numa variável explicativa pouco associada com a variável resposta, parece ter poucas implicações nos resultados finais, independentemente da técnica escolhida para lidar com os dados omissos. No caso de percentagens elevadas de dados omissos, a análise CC é claramente inferior às técnicas de imputação.