Publicação
Prediction of goal times in a football match : application of a bayesian counting process
| Resumo: | O futebol é o desporto mais popular do mundo. É um dos desportos mais assistidos globalmente e dos que mais impacto tem na economia de um país. Grandes eventos como o Campeonato Europeu ou o Mundial de futebol movem milhares de pessoas, que se deslocam das suas terras natais para o país anfitrião do evento, impulsionando a economia local. Além disto, o surgimento e expansão das casas de apostas online, que permitem ao apostador fazer apostas de forma rápida e simples, têm provocado um aumento significativo no número de pessoas que pretendem obter lucros com base nas suas previsões dos resultados de jogos de futebol. Muitos modelos para prever os resultados de partidas de futebol têm sido sugeridos desde meados do século passado, o que revela a relevância e o interesse contínuo neste tópico. Os primeiros modelos que surgiram para antecipar os resultados de um determinado jogo consideravam que o número de golos marcados por cada uma das equipas podia ser modelado por uma distribuição Poisson de parâmetro constante, não considerando quaisquer variações temporais. Mais recentemente, muitos modelos dinâmicos, isto é, modelos que incorporam variações ao longo do tempo, têm sido considerados para modelar os golos de uma partida, tendo em conta a evidência da não uniformidade do número de golos marcados ao longo dos 90 minutos do jogo, que sugere que modelos dinâmicos podem ser mais apropriados para este tipo de previsão. O objetivo deste trabalho é modelar os golos marcados num encontro entre duas equipas utilizando dois processos de Poisson, um associado à equipa da casa e outro associado à equipa de fora, de maneira a conseguir obter previsões de resultados de jogos de futebol. Outro foco deste trabalho é propor a versão Bayesiana de um modelo já desenvolvido em Volf (2009), com inclusão de certas sugestões que podem melhorar o modelo original, como a introdução de um parâmetro que considera a vantagem das equipas quando jogam em casa e a utilização de uma maior quantidade de dados, tendo em conta a complexidade do modelo, que exige uma grande quantidade de dados para que seja bem estimado. Os processos de Poisson são processos de contagem cuja função de intensidade não depende do histórico do processo que estão a modelar. Esta característica é muito conveniente, pois permite fazer contagens em intervalos de tempos disjuntos de forma independente. Graças a esta propriedade, é possível associar a função de intensidade do processo de Poisson à função de risco do modelo de regressão de Cox, uma vez que ambas são funções taxa. A função de risco do modelo de Cox tem duas componentes: uma função de risco base e uma função de regressão, que representa o efeito das covariáveis no tempo de vida dos indivíduos de uma população. De forma análoga, no caso dos jogos de futebol, considera-se que a intensidade de marcação de golos de uma equipa, portanto, a intensidade do processo de Poisson que lhe está associada, é composta por uma intensidade base, que reflete as capacidades ofensivas da equipa, e pela função de regressão, que reflete as capacidades defensivas da equipa adversária, bem como outros fatores, como o parâmetro da vantagem de jogar em casa e a influência de sofrer um cartão vermelho ao longo do jogo. Assim, quanto maior for a intensidade base da equipa e quanto mais fraca for a defesa da equipa adversária, maior será a intensidade de marcação de golos. Neste trabalho, a abordagem adotada para modelar a intensidade base para cada equipa consistiu em dividir os 90 minutos em 15 intervalos de 6 minutos, assumindo que a intensidade base é constante em cada intervalo. Posteriormente, os 15 valores que constituem a intensidade base de cada equipa foram estimados com base nos incrementos da função de intensidade cumulativa. Os dados utilizados para estimar o modelo foram retirados de 3408 jogos correspondentes a 12 temporadas consecutivas da Primeira Liga Portuguesa de Futebol. Estes dados incluíam tanto os tempos de golos de ambas as equipas em cada jogo, como os tempos em que, no caso de terem ocorrido, foram assinalados cartões vermelhos. Em primeiro lugar, realizou-se uma análise exploratória, para entender melhor como é que os golos estão distribuídos ao longo dos 90 minutos da partida. Através de um histograma, observou-se de imediato a tendência ascendente no número de golos marcados à medida que o jogo se desenrola, o que reforça a ideia de que as distribuições de Poisson com taxa constante não são as mais adequadas para prever resultados de futebol, uma vez que assumem uma taxa constante de ocorrência de golos ao longo do tempo. Já no que diz respeito à vantagem de jogar em casa, foram realizadas várias comparações para verificar se seria relevante incluir este parâmetro no modelo. Ao analisar o número de golos marcados em casa e fora das equipas, observa-se que a grande maioria tende a marcar mais em casa do que fora, sendo as diferenças, por vezes, bastante significativas. Além disso, ao comparar o número de vitórias e derrotas a jogar em casa e fora, verifica-se que praticamente todas as equipas têm um melhor desempenho em casa do que fora, portanto, existem mais vitórias em casa do que fora e mais derrotas fora do que em casa, o que sugere que a vantagem de jogar em casa é realmente algo que parece existir e que pode ser explicado por muitos fatores. Quanto aos empates, os resultados são bastante mais equilibrados, com muitas equipas a terem um número de empates em casa e fora bastante similares. Durante as 12 temporadas consecutivas, participaram 33 equipas diferentes. Daqui vem que, o objetivo é estimar a intensidade do processo de Poisson associado aos golos marcados por cada uma dessas 33 equipas em qualquer jogo. Portanto, quanto à intensidade base de cada uma das equipas, temos 15 valores a estimar, um por cada intervalo, e temos um total de 33 equipas no conjunto de dados. Vem então que só associados à intensidade base temos 495 parâmetros. Além destes, temos também 33 parâmetros de defesa, um parâmetro para o efeito casa e dois parâmetros para o efeito das covariáveis em estudo na marcação dos golos, cartões vermelhos marcados para a equipa da casa e cartões vermelhos marcados para a equipa de fora. Para estimar estes 531 parâmetros, recorreu-se ao método de MCMC, amplamente utilizado em inferência Bayesiana. Após correr a cadeia de Markov, foi feita uma análise à convergência, de maneira a detetar possíveis problemas na convergência da cadeia para a distribuição alvo, que é a distribuição à posteriori conjunta dos 531 parâmetros do modelo. Após o diagnóstico, como não foram detetados problemas na convergência, obtiveram-se as estimativas dos parâmetros pelas média das amostras da distribuição à posteriori. A partir das estimativas dos parâmetros foi possível obter estimativas para as intensidades de marcação de golos para duas equipas que se confrontam num jogo qualquer. Desta forma, analisou-se o impacto existente na intensidade de marcação de golos de uma determinada equipa, quando esta defronta uma equipa boa, uma equipa média e uma equipa fraca. Além disto, analisou-se também as formas das intensidades das diferentes equipas, para detetar algum possível padrão. Por fim, com as estimativas das intensidades base, foi possível simular jogos entre duas equipas, gerando 15 distribuições Poisson por equipa, cada uma com um parâmetro dado pela intensidade base para o respetivo intervalo, multiplicado pela estimativa da função de regressão. Com base nisto, simularam-se 1000 jogos para obter as probabilidades de ocorrência de vários placares, para diferentes equipas, de diferentes níveis. Também utilizaram-se simulações para simular a temporada de 2022/2023, que é a primeira temporada excluída do conjunto de dados, de modo a prever as diferentes classificações para as diferentes equipas que participaram nessa temporada. O modelo previu corretamente as posições dos primeiros dois classificados, bem como a descida de divisão de uma equipa. |
|---|---|
| Autores principais: | Cabral, Daniel de Melo |
| Assunto: | Processos de Poisson Modelo de Cox Inferência Bayesiana Simulação Futebol Teses de mestrado - 2024 |
| Ano: | 2024 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | inglês |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | O futebol é o desporto mais popular do mundo. É um dos desportos mais assistidos globalmente e dos que mais impacto tem na economia de um país. Grandes eventos como o Campeonato Europeu ou o Mundial de futebol movem milhares de pessoas, que se deslocam das suas terras natais para o país anfitrião do evento, impulsionando a economia local. Além disto, o surgimento e expansão das casas de apostas online, que permitem ao apostador fazer apostas de forma rápida e simples, têm provocado um aumento significativo no número de pessoas que pretendem obter lucros com base nas suas previsões dos resultados de jogos de futebol. Muitos modelos para prever os resultados de partidas de futebol têm sido sugeridos desde meados do século passado, o que revela a relevância e o interesse contínuo neste tópico. Os primeiros modelos que surgiram para antecipar os resultados de um determinado jogo consideravam que o número de golos marcados por cada uma das equipas podia ser modelado por uma distribuição Poisson de parâmetro constante, não considerando quaisquer variações temporais. Mais recentemente, muitos modelos dinâmicos, isto é, modelos que incorporam variações ao longo do tempo, têm sido considerados para modelar os golos de uma partida, tendo em conta a evidência da não uniformidade do número de golos marcados ao longo dos 90 minutos do jogo, que sugere que modelos dinâmicos podem ser mais apropriados para este tipo de previsão. O objetivo deste trabalho é modelar os golos marcados num encontro entre duas equipas utilizando dois processos de Poisson, um associado à equipa da casa e outro associado à equipa de fora, de maneira a conseguir obter previsões de resultados de jogos de futebol. Outro foco deste trabalho é propor a versão Bayesiana de um modelo já desenvolvido em Volf (2009), com inclusão de certas sugestões que podem melhorar o modelo original, como a introdução de um parâmetro que considera a vantagem das equipas quando jogam em casa e a utilização de uma maior quantidade de dados, tendo em conta a complexidade do modelo, que exige uma grande quantidade de dados para que seja bem estimado. Os processos de Poisson são processos de contagem cuja função de intensidade não depende do histórico do processo que estão a modelar. Esta característica é muito conveniente, pois permite fazer contagens em intervalos de tempos disjuntos de forma independente. Graças a esta propriedade, é possível associar a função de intensidade do processo de Poisson à função de risco do modelo de regressão de Cox, uma vez que ambas são funções taxa. A função de risco do modelo de Cox tem duas componentes: uma função de risco base e uma função de regressão, que representa o efeito das covariáveis no tempo de vida dos indivíduos de uma população. De forma análoga, no caso dos jogos de futebol, considera-se que a intensidade de marcação de golos de uma equipa, portanto, a intensidade do processo de Poisson que lhe está associada, é composta por uma intensidade base, que reflete as capacidades ofensivas da equipa, e pela função de regressão, que reflete as capacidades defensivas da equipa adversária, bem como outros fatores, como o parâmetro da vantagem de jogar em casa e a influência de sofrer um cartão vermelho ao longo do jogo. Assim, quanto maior for a intensidade base da equipa e quanto mais fraca for a defesa da equipa adversária, maior será a intensidade de marcação de golos. Neste trabalho, a abordagem adotada para modelar a intensidade base para cada equipa consistiu em dividir os 90 minutos em 15 intervalos de 6 minutos, assumindo que a intensidade base é constante em cada intervalo. Posteriormente, os 15 valores que constituem a intensidade base de cada equipa foram estimados com base nos incrementos da função de intensidade cumulativa. Os dados utilizados para estimar o modelo foram retirados de 3408 jogos correspondentes a 12 temporadas consecutivas da Primeira Liga Portuguesa de Futebol. Estes dados incluíam tanto os tempos de golos de ambas as equipas em cada jogo, como os tempos em que, no caso de terem ocorrido, foram assinalados cartões vermelhos. Em primeiro lugar, realizou-se uma análise exploratória, para entender melhor como é que os golos estão distribuídos ao longo dos 90 minutos da partida. Através de um histograma, observou-se de imediato a tendência ascendente no número de golos marcados à medida que o jogo se desenrola, o que reforça a ideia de que as distribuições de Poisson com taxa constante não são as mais adequadas para prever resultados de futebol, uma vez que assumem uma taxa constante de ocorrência de golos ao longo do tempo. Já no que diz respeito à vantagem de jogar em casa, foram realizadas várias comparações para verificar se seria relevante incluir este parâmetro no modelo. Ao analisar o número de golos marcados em casa e fora das equipas, observa-se que a grande maioria tende a marcar mais em casa do que fora, sendo as diferenças, por vezes, bastante significativas. Além disso, ao comparar o número de vitórias e derrotas a jogar em casa e fora, verifica-se que praticamente todas as equipas têm um melhor desempenho em casa do que fora, portanto, existem mais vitórias em casa do que fora e mais derrotas fora do que em casa, o que sugere que a vantagem de jogar em casa é realmente algo que parece existir e que pode ser explicado por muitos fatores. Quanto aos empates, os resultados são bastante mais equilibrados, com muitas equipas a terem um número de empates em casa e fora bastante similares. Durante as 12 temporadas consecutivas, participaram 33 equipas diferentes. Daqui vem que, o objetivo é estimar a intensidade do processo de Poisson associado aos golos marcados por cada uma dessas 33 equipas em qualquer jogo. Portanto, quanto à intensidade base de cada uma das equipas, temos 15 valores a estimar, um por cada intervalo, e temos um total de 33 equipas no conjunto de dados. Vem então que só associados à intensidade base temos 495 parâmetros. Além destes, temos também 33 parâmetros de defesa, um parâmetro para o efeito casa e dois parâmetros para o efeito das covariáveis em estudo na marcação dos golos, cartões vermelhos marcados para a equipa da casa e cartões vermelhos marcados para a equipa de fora. Para estimar estes 531 parâmetros, recorreu-se ao método de MCMC, amplamente utilizado em inferência Bayesiana. Após correr a cadeia de Markov, foi feita uma análise à convergência, de maneira a detetar possíveis problemas na convergência da cadeia para a distribuição alvo, que é a distribuição à posteriori conjunta dos 531 parâmetros do modelo. Após o diagnóstico, como não foram detetados problemas na convergência, obtiveram-se as estimativas dos parâmetros pelas média das amostras da distribuição à posteriori. A partir das estimativas dos parâmetros foi possível obter estimativas para as intensidades de marcação de golos para duas equipas que se confrontam num jogo qualquer. Desta forma, analisou-se o impacto existente na intensidade de marcação de golos de uma determinada equipa, quando esta defronta uma equipa boa, uma equipa média e uma equipa fraca. Além disto, analisou-se também as formas das intensidades das diferentes equipas, para detetar algum possível padrão. Por fim, com as estimativas das intensidades base, foi possível simular jogos entre duas equipas, gerando 15 distribuições Poisson por equipa, cada uma com um parâmetro dado pela intensidade base para o respetivo intervalo, multiplicado pela estimativa da função de regressão. Com base nisto, simularam-se 1000 jogos para obter as probabilidades de ocorrência de vários placares, para diferentes equipas, de diferentes níveis. Também utilizaram-se simulações para simular a temporada de 2022/2023, que é a primeira temporada excluída do conjunto de dados, de modo a prever as diferentes classificações para as diferentes equipas que participaram nessa temporada. O modelo previu corretamente as posições dos primeiros dois classificados, bem como a descida de divisão de uma equipa. |
|---|