Publicação
Combinar deep learning com técnicas tradicionais de visão para aumentar o desempenho e melhorar datasets
| Resumo: | Este documento serve como introdução ao trabalho que tem vindo a ser desenvolvido, na tentativa de demonstrar que a combinação de técnicas tradicionais da visão por computador em conjunto com deep learning, pode ser uma mais valia na tentativa de melhorar o desempenho de soluções para um dado problema de classificação. Por vezes o desempenho da solução está limitado, devido à qualidade do próprio dataset utilizado, sendo algo bastante relevante num problema de classificação de imagem como por exemplo na classificação de lugares de estacionamento. Utilizando como caso de uso o problema da classificação de lugares de estacionamento, foi utilizado o dataset PKLot que apresenta características que podem causar este tipo de limitações. No entanto identificar este tipo de características, implica que o dataset seja testado e analisado minuciosamente, de modo a que seja possível perceber a forma de como os algoritmos de visão tradicional, podem ser aplicados e se possível melhorar o desempenho geral da solução, sendo este um componente importante e demorado no trabalho desenvolvido. Os algoritmos de visão por computador, podem ser aplicados em diferentes fases do processo. Numa fase de pré-processamento, com operações simples para tentar melhorar por exemplo a qualidade geral das imagem, utilizando algoritmos como Gaussian Blur ou Median Blur. Numa fase de classificação, podem ser utilizados algoritmos como por exemplo Background Subtraction (BG), Scale-Invariant Feature Transform (SIFT), Histogram of Oriented Gradient (HOG), Local binary pattern (LBP), entre outros. Apesar da sua simplicidade, quando devidamente afinados e orientados ao problema, os algoritmos da visão por computador, podem ter um desempenho igual ou superior a uma solução puramente deep learning, podendo-se apresentar como uma solução mais simples, e de maior controlo, e facilidade na compreensão dos resultados devolvidos, algo que também foi possível observar no decorrer deste trabalho. |
|---|---|
| Autores principais: | Rodrigues, Diogo Filipe Rocha |
| Assunto: | Computer Vision Deep-Learning Classificação Dataset Pré-processamento Técnicas SIFT HOG LBP BG Deep Learning Classification Pre-processing Techniques |
| Ano: | 2025 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade do Minho |
| Idioma: | português |
| Origem: | RepositóriUM - Universidade do Minho |
| Resumo: | Este documento serve como introdução ao trabalho que tem vindo a ser desenvolvido, na tentativa de demonstrar que a combinação de técnicas tradicionais da visão por computador em conjunto com deep learning, pode ser uma mais valia na tentativa de melhorar o desempenho de soluções para um dado problema de classificação. Por vezes o desempenho da solução está limitado, devido à qualidade do próprio dataset utilizado, sendo algo bastante relevante num problema de classificação de imagem como por exemplo na classificação de lugares de estacionamento. Utilizando como caso de uso o problema da classificação de lugares de estacionamento, foi utilizado o dataset PKLot que apresenta características que podem causar este tipo de limitações. No entanto identificar este tipo de características, implica que o dataset seja testado e analisado minuciosamente, de modo a que seja possível perceber a forma de como os algoritmos de visão tradicional, podem ser aplicados e se possível melhorar o desempenho geral da solução, sendo este um componente importante e demorado no trabalho desenvolvido. Os algoritmos de visão por computador, podem ser aplicados em diferentes fases do processo. Numa fase de pré-processamento, com operações simples para tentar melhorar por exemplo a qualidade geral das imagem, utilizando algoritmos como Gaussian Blur ou Median Blur. Numa fase de classificação, podem ser utilizados algoritmos como por exemplo Background Subtraction (BG), Scale-Invariant Feature Transform (SIFT), Histogram of Oriented Gradient (HOG), Local binary pattern (LBP), entre outros. Apesar da sua simplicidade, quando devidamente afinados e orientados ao problema, os algoritmos da visão por computador, podem ter um desempenho igual ou superior a uma solução puramente deep learning, podendo-se apresentar como uma solução mais simples, e de maior controlo, e facilidade na compreensão dos resultados devolvidos, algo que também foi possível observar no decorrer deste trabalho. |
|---|