Publicação

Combinar deep learning com técnicas tradicionais de visão para aumentar o desempenho e melhorar datasets

Detalhes bibliográficos
Resumo:	Este documento serve como introdução ao trabalho que tem vindo a ser desenvolvido, na tentativa de demonstrar que a combinação de técnicas tradicionais da visão por computador em conjunto com deep learning, pode ser uma mais valia na tentativa de melhorar o desempenho de soluções para um dado problema de classificação. Por vezes o desempenho da solução está limitado, devido à qualidade do próprio dataset utilizado, sendo algo bastante relevante num problema de classificação de imagem como por exemplo na classificação de lugares de estacionamento. Utilizando como caso de uso o problema da classificação de lugares de estacionamento, foi utilizado o dataset PKLot que apresenta características que podem causar este tipo de limitações. No entanto identificar este tipo de características, implica que o dataset seja testado e analisado minuciosamente, de modo a que seja possível perceber a forma de como os algoritmos de visão tradicional, podem ser aplicados e se possível melhorar o desempenho geral da solução, sendo este um componente importante e demorado no trabalho desenvolvido. Os algoritmos de visão por computador, podem ser aplicados em diferentes fases do processo. Numa fase de pré-processamento, com operações simples para tentar melhorar por exemplo a qualidade geral das imagem, utilizando algoritmos como Gaussian Blur ou Median Blur. Numa fase de classificação, podem ser utilizados algoritmos como por exemplo Background Subtraction (BG), Scale-Invariant Feature Transform (SIFT), Histogram of Oriented Gradient (HOG), Local binary pattern (LBP), entre outros. Apesar da sua simplicidade, quando devidamente afinados e orientados ao problema, os algoritmos da visão por computador, podem ter um desempenho igual ou superior a uma solução puramente deep learning, podendo-se apresentar como uma solução mais simples, e de maior controlo, e facilidade na compreensão dos resultados devolvidos, algo que também foi possível observar no decorrer deste trabalho.
Autores principais:	Rodrigues, Diogo Filipe Rocha
Assunto:	Computer Vision Deep-Learning Classificação Dataset Pré-processamento Técnicas SIFT HOG LBP BG Deep Learning Classification Pre-processing Techniques
Ano:	2025
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade do Minho
Idioma:	português
Origem:	RepositóriUM - Universidade do Minho

Descrição
Resumo:	Este documento serve como introdução ao trabalho que tem vindo a ser desenvolvido, na tentativa de demonstrar que a combinação de técnicas tradicionais da visão por computador em conjunto com deep learning, pode ser uma mais valia na tentativa de melhorar o desempenho de soluções para um dado problema de classificação. Por vezes o desempenho da solução está limitado, devido à qualidade do próprio dataset utilizado, sendo algo bastante relevante num problema de classificação de imagem como por exemplo na classificação de lugares de estacionamento. Utilizando como caso de uso o problema da classificação de lugares de estacionamento, foi utilizado o dataset PKLot que apresenta características que podem causar este tipo de limitações. No entanto identificar este tipo de características, implica que o dataset seja testado e analisado minuciosamente, de modo a que seja possível perceber a forma de como os algoritmos de visão tradicional, podem ser aplicados e se possível melhorar o desempenho geral da solução, sendo este um componente importante e demorado no trabalho desenvolvido. Os algoritmos de visão por computador, podem ser aplicados em diferentes fases do processo. Numa fase de pré-processamento, com operações simples para tentar melhorar por exemplo a qualidade geral das imagem, utilizando algoritmos como Gaussian Blur ou Median Blur. Numa fase de classificação, podem ser utilizados algoritmos como por exemplo Background Subtraction (BG), Scale-Invariant Feature Transform (SIFT), Histogram of Oriented Gradient (HOG), Local binary pattern (LBP), entre outros. Apesar da sua simplicidade, quando devidamente afinados e orientados ao problema, os algoritmos da visão por computador, podem ter um desempenho igual ou superior a uma solução puramente deep learning, podendo-se apresentar como uma solução mais simples, e de maior controlo, e facilidade na compreensão dos resultados devolvidos, algo que também foi possível observar no decorrer deste trabalho.