Publicação
Copula models for dependence: comparing classical and bayesian approaches
| Resumo: | O coeficiente de correlação de Pearson é usado para quantificar a intensidade de associações lineares entre duas variáveis. Alternativamente, coeficientes de correlação não paramétricos, como os de Spearman e Kendall, podem também ser utilizados. Contudo, em aplicações reais, as associações raramente são lineares. Nestas situações, é interessante ajustar um modelo multivariado às variáveis aleatórias que descreva outros tipos de relações de dependência. Embora se possa automaticamente pensar no modelo Normal tradicional multivariado, este geralmente não consegue descrever apropriadamente a complexidade das associações existentes entre as variáveis. Além disso, dificilmente consegue modelar adequadamente dados que apresentem, por exemplo, caudas pesadas ou assimetrias acentuadas. As cópulas ultrapassam este problema pois permitem descrever a dependência conjunta entre várias variáveis. Numa estrutura multivariada, é possível criar a distribuição conjunta das diversas variáveis aleatórias independentemente das suas distribuições marginais. As cópulas têm sido amplamente usadas em diversas áreas, principalmente na área da banca e dos seguros. Contudo, devido à sua versatilidade, também têm tido grande aplicação em questões ambientais e climáticas. Nesta dissertação, são utilizadas cópulas para analisar a dependência entre duas variáveis: a velocidade máxima diária de vento, X, medida em km/h, observada em 40 estações meteorológicas localizadas em Portugal continental desde 2000 até 2012 e a velocidade máxima diária de vento simulada, Y, produzida por um simulador com uma grelha regular com células de 81 km2. Um dos principais benefícios em usar os dados simulados face aos observados é não haver presença de valores em falta. Em algumas estações a proporção de valores omissos (NA) chega a atingir os 90%. Por esse motivo, das 117 estações meteorológicas do Instituto Português do Mar e da Atmosfera localizadas no continente, só foram consideradas as que apresentavam menos de 30% de NAs, i.e., 40 estações. Os dados observados e simulados irão ser analisados por estação do ano e, em todas as estações do ano, só uma observação em cada cinco será considerada, de forma a minimizar a dependência de curto prazo existente em cada série. Foram também retiradas do estudo as velocidades de vento iguais a 0 por serem, possivelmente, erros da torre de medição ou valores em falta. O maior problema de usar os dados simulados face às velocidades de vento diárias registadas prende-se com o facto de, nalgumas estações, embora possa haver uma boa correspondência no centro da distribuição, as caudas tendem a ser bastante diferentes, especialmente no que se refere à cauda superior. Os dados simulados apresentam tipicamente caudas direitas menos pesadas do que as dos dados observados. Outro problema que pode surgir ao serem utilizados dados simulados relaciona-se com a localização destes. Nalgumas situações, maioritariamente na Primavera e, ocasionalmente no Verão, as velocidades de vento simuladas parecem ter sofrido um deslocamento para a direita face às velocidades de vento registadas. Num contexto ambiental, valores extremos de velocidade de vento podem causar vários danos materiais, nomeadamente no que diz respeito a redes eléctricas, infra-estruturas agrícolas, fabris e/ou serviço público, ou danos na via pública. Na ocorrência de ventos fortes, se uma rede de energia ficar danificada, e, consequentemente, uma localidade ficar sem energia durante um certo período de tempo, cabe à empresa de energia reembolsar a população. No caso de infra-estruturas agrícolas ou fabris, que estão em constante produção, um corte de energia, provocado por eventos extremos de ventos, implica a paragem da produção. Em ambos os casos, quanto maior for o período sem electricidade, maior será o prejuízo. Por outro lado, o conhecimento do comportamento do vento pode ser importante para questões municipais, nomeadamente numa planificação urbanística adequada à zona. Se esta for demasiado ventosa, não deverão ser construídos terraços ou plantadas árvores que, na ocorrência de eventos extremos, poderão cair e danificar a via pública ou até habitações/estabelecimentos. Deste modo, estudar e entender a dependência entre as velocidades de vento diárias registadas e os valores simulados é extremamente importante. Apesar das cópulas permitirem a separação da modelação das distribuições univariadas e da estrutura de dependência conjunta, modelar adequadamente as velocidades máximas diárias de vento registadas e as velocidades simuladas produzidas pelo simulador é importante. Foram consideradas 4 distribuições para modelar as velocidades do vento: a Lognormal, a Gama, a Weibull e a Burr com 3 parâmetros e foram realizados vários testes de ajustamento, tais como o Qui-Quadrado ou o Kolmogorov-Smirnov. Os resultados mostraram que a Lognormal e a Gama são as distribuições que melhor se ajustam aos dados de vento e, contrariamente ao que seria de esperar com base na literatura, a Weibull parece ser a que menos vezes se ajusta; ver [Mert and Karakus, 2015] ou [Shepherd, 1978]. Para modelar a dependência conjunta, foram consideradas cinco famílias de cópulas: a Gaussiana, a Student t, a Clayton, a Frank e a Gumbel. Ocasionalmente, foi ajustada a cópula Joe. Foram ainda usados três testes semi-paramétricos de ajustamento para cópulas baseados no conceito de cópula empírica, da transformação de Kendall e da transformação de Rosenblatt. A cópula Gumbel foi ajustada 72 vezes em 160 (4 estações do ano 40 estações meteorológicas), o que constitui 45% dos casos. Esta cópula é caracterizada por apresentar dependência na cauda superior, o que significa que existe dependência para valores altos da velocidade de vento registada e simulada. No global, 65% das cópulas ajustadas apresentam dependência na cauda superior, enquanto cerca de 32% não apresenta dependência nas caudas, pelo que os ventos simulados e observados se comportam similarmente ao longo do suporte. Foram também discutidos e comparados diferentes tipos de estimação do parâmetro da cópula. Estes estão englobados em 3 categorias: estimação paramétrica, estimação semi-paramétrica e estimação não paramétrica. No primeiro caso, existem 2 métodos, o método da máxima verosimilhança e o método “Inference for Margins”, onde são consideradas as distribuições marginais de cada variável. No caso da estimação pelo método da máxima verosimilhança, a estimação dos parâmetros das distribuições univariadas e do parâmetro da cópula são obtidas conjuntamente, enquanto o segundo método está dividido em 2 fases: na primeira, os parâmetros das cópulas são estimados e, na segunda, os parâmetros obtidos na primeira fase são utilizados para estimar o parâmetro da cópula. Por outro lado, a estimação semi-paramétrica engloba o método da máxima pseudo-verosimilhança e tem como base as distribuições empíricas das variáveis. Por último, a cópula pode ser estimada não parametricamente pela cópula empírica ou pelas medidas de dependência não paramétricas, tais como o t de Kendall e o r de Spearman, que têm uma relação directa com as cópulas. Depois de ajustados e estimados os parâmetros, foram simuladas observações a partir da cópula e comparadas com as velocidades de ventos reais e com as obtidas pelo simulador. Foram também apresentadas estimativas da dependência conjunta de ocorrência de ventos fortes. Observou-se que a dependência entre as variáveis é superior nas estações do Outono e do Inverno e menor no Verão, o que seria de esperar. Por fim, aplicou-se a abordagem Bayesiana a 9 estações com o intuito de a comparar com a abordagem clássica. No geral, não se obtiveram estimativas muito diferentes das que foram obtidas anteriormente. Contudo, a amplitude dos intervalos de credibilidade a 95% revelou-se ser inferior à amplitude dos intervalos de confiança a 95%, o que constitui uma vantagem em utilizar a abordagem Bayesiana face à abordagem clássica. |
|---|---|
| Autores principais: | André, Lídia Maria Branco Correia Martins |
| Assunto: | Dependência Cópulas Velocidade de ventos Estatística Bayesiana Teses de mestrado - 2019 |
| Ano: | 2019 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | inglês |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | O coeficiente de correlação de Pearson é usado para quantificar a intensidade de associações lineares entre duas variáveis. Alternativamente, coeficientes de correlação não paramétricos, como os de Spearman e Kendall, podem também ser utilizados. Contudo, em aplicações reais, as associações raramente são lineares. Nestas situações, é interessante ajustar um modelo multivariado às variáveis aleatórias que descreva outros tipos de relações de dependência. Embora se possa automaticamente pensar no modelo Normal tradicional multivariado, este geralmente não consegue descrever apropriadamente a complexidade das associações existentes entre as variáveis. Além disso, dificilmente consegue modelar adequadamente dados que apresentem, por exemplo, caudas pesadas ou assimetrias acentuadas. As cópulas ultrapassam este problema pois permitem descrever a dependência conjunta entre várias variáveis. Numa estrutura multivariada, é possível criar a distribuição conjunta das diversas variáveis aleatórias independentemente das suas distribuições marginais. As cópulas têm sido amplamente usadas em diversas áreas, principalmente na área da banca e dos seguros. Contudo, devido à sua versatilidade, também têm tido grande aplicação em questões ambientais e climáticas. Nesta dissertação, são utilizadas cópulas para analisar a dependência entre duas variáveis: a velocidade máxima diária de vento, X, medida em km/h, observada em 40 estações meteorológicas localizadas em Portugal continental desde 2000 até 2012 e a velocidade máxima diária de vento simulada, Y, produzida por um simulador com uma grelha regular com células de 81 km2. Um dos principais benefícios em usar os dados simulados face aos observados é não haver presença de valores em falta. Em algumas estações a proporção de valores omissos (NA) chega a atingir os 90%. Por esse motivo, das 117 estações meteorológicas do Instituto Português do Mar e da Atmosfera localizadas no continente, só foram consideradas as que apresentavam menos de 30% de NAs, i.e., 40 estações. Os dados observados e simulados irão ser analisados por estação do ano e, em todas as estações do ano, só uma observação em cada cinco será considerada, de forma a minimizar a dependência de curto prazo existente em cada série. Foram também retiradas do estudo as velocidades de vento iguais a 0 por serem, possivelmente, erros da torre de medição ou valores em falta. O maior problema de usar os dados simulados face às velocidades de vento diárias registadas prende-se com o facto de, nalgumas estações, embora possa haver uma boa correspondência no centro da distribuição, as caudas tendem a ser bastante diferentes, especialmente no que se refere à cauda superior. Os dados simulados apresentam tipicamente caudas direitas menos pesadas do que as dos dados observados. Outro problema que pode surgir ao serem utilizados dados simulados relaciona-se com a localização destes. Nalgumas situações, maioritariamente na Primavera e, ocasionalmente no Verão, as velocidades de vento simuladas parecem ter sofrido um deslocamento para a direita face às velocidades de vento registadas. Num contexto ambiental, valores extremos de velocidade de vento podem causar vários danos materiais, nomeadamente no que diz respeito a redes eléctricas, infra-estruturas agrícolas, fabris e/ou serviço público, ou danos na via pública. Na ocorrência de ventos fortes, se uma rede de energia ficar danificada, e, consequentemente, uma localidade ficar sem energia durante um certo período de tempo, cabe à empresa de energia reembolsar a população. No caso de infra-estruturas agrícolas ou fabris, que estão em constante produção, um corte de energia, provocado por eventos extremos de ventos, implica a paragem da produção. Em ambos os casos, quanto maior for o período sem electricidade, maior será o prejuízo. Por outro lado, o conhecimento do comportamento do vento pode ser importante para questões municipais, nomeadamente numa planificação urbanística adequada à zona. Se esta for demasiado ventosa, não deverão ser construídos terraços ou plantadas árvores que, na ocorrência de eventos extremos, poderão cair e danificar a via pública ou até habitações/estabelecimentos. Deste modo, estudar e entender a dependência entre as velocidades de vento diárias registadas e os valores simulados é extremamente importante. Apesar das cópulas permitirem a separação da modelação das distribuições univariadas e da estrutura de dependência conjunta, modelar adequadamente as velocidades máximas diárias de vento registadas e as velocidades simuladas produzidas pelo simulador é importante. Foram consideradas 4 distribuições para modelar as velocidades do vento: a Lognormal, a Gama, a Weibull e a Burr com 3 parâmetros e foram realizados vários testes de ajustamento, tais como o Qui-Quadrado ou o Kolmogorov-Smirnov. Os resultados mostraram que a Lognormal e a Gama são as distribuições que melhor se ajustam aos dados de vento e, contrariamente ao que seria de esperar com base na literatura, a Weibull parece ser a que menos vezes se ajusta; ver [Mert and Karakus, 2015] ou [Shepherd, 1978]. Para modelar a dependência conjunta, foram consideradas cinco famílias de cópulas: a Gaussiana, a Student t, a Clayton, a Frank e a Gumbel. Ocasionalmente, foi ajustada a cópula Joe. Foram ainda usados três testes semi-paramétricos de ajustamento para cópulas baseados no conceito de cópula empírica, da transformação de Kendall e da transformação de Rosenblatt. A cópula Gumbel foi ajustada 72 vezes em 160 (4 estações do ano 40 estações meteorológicas), o que constitui 45% dos casos. Esta cópula é caracterizada por apresentar dependência na cauda superior, o que significa que existe dependência para valores altos da velocidade de vento registada e simulada. No global, 65% das cópulas ajustadas apresentam dependência na cauda superior, enquanto cerca de 32% não apresenta dependência nas caudas, pelo que os ventos simulados e observados se comportam similarmente ao longo do suporte. Foram também discutidos e comparados diferentes tipos de estimação do parâmetro da cópula. Estes estão englobados em 3 categorias: estimação paramétrica, estimação semi-paramétrica e estimação não paramétrica. No primeiro caso, existem 2 métodos, o método da máxima verosimilhança e o método “Inference for Margins”, onde são consideradas as distribuições marginais de cada variável. No caso da estimação pelo método da máxima verosimilhança, a estimação dos parâmetros das distribuições univariadas e do parâmetro da cópula são obtidas conjuntamente, enquanto o segundo método está dividido em 2 fases: na primeira, os parâmetros das cópulas são estimados e, na segunda, os parâmetros obtidos na primeira fase são utilizados para estimar o parâmetro da cópula. Por outro lado, a estimação semi-paramétrica engloba o método da máxima pseudo-verosimilhança e tem como base as distribuições empíricas das variáveis. Por último, a cópula pode ser estimada não parametricamente pela cópula empírica ou pelas medidas de dependência não paramétricas, tais como o t de Kendall e o r de Spearman, que têm uma relação directa com as cópulas. Depois de ajustados e estimados os parâmetros, foram simuladas observações a partir da cópula e comparadas com as velocidades de ventos reais e com as obtidas pelo simulador. Foram também apresentadas estimativas da dependência conjunta de ocorrência de ventos fortes. Observou-se que a dependência entre as variáveis é superior nas estações do Outono e do Inverno e menor no Verão, o que seria de esperar. Por fim, aplicou-se a abordagem Bayesiana a 9 estações com o intuito de a comparar com a abordagem clássica. No geral, não se obtiveram estimativas muito diferentes das que foram obtidas anteriormente. Contudo, a amplitude dos intervalos de credibilidade a 95% revelou-se ser inferior à amplitude dos intervalos de confiança a 95%, o que constitui uma vantagem em utilizar a abordagem Bayesiana face à abordagem clássica. |
|---|