Publicação

Sistema de deteção visual para aplicação em contexto de agricultura

Detalhes bibliográficos
Resumo:	A visão por computador, tem-se revelado fundamental na inovação e evolução tecnológica, com um crescimento exponencial ao longo dos últimos anos. As técnicas tradicionais do processamento de imagem, nem sempre são suficientemente capazes de resolver problemas reais de elevada complexidade. A utilização de técnicas deep learning, permitirão desenvolver capacidades de aprendizagem com melhores desempenhos. Na presente dissertação, desenvolvida no INESC TEC nos laboratórios do CRIIS, pretende-se explorar a utilidade do deep learning através da comparação e avaliação de quatro modelos deep learning, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, para deteção de frutos, designadamente tomate em estufa. O objetivo principal desta comparação é avaliar a rede neuronal com melhor desempenho em inferência, assim como a viabilidade de utilização de dois datasets distintos. Foi utilizado um dataset de tomate adquirido, contra um dataset público Open Image Dataset v6 (OIDv6), para o treino dos quatro modelos. Para a avaliação do desempenho, recorreu-se a um dataset de teste próprio, de tomate em estufa. No final os resultados demonstraram grandes benefícios na utilização do dataset de tomate adquirido, no qual a YOLOv4 obteve o melhor desempenho, com uma precisão de 91%. No caso do OIDv6 os resultados foram muito baixos, devido às caraterísticas do dataset serem muito díspares do dataset de teste. Após a análise das redes neuronais, explorou-se o desenvolvimento da unidade de processamento FPGA (Field Programmable Gate Array ), com o objetivo de avaliar o seu desempenho ao nível de inferência, eficiência energética e tempo de inferência. Iniciou-se pela configuração do modelo YOLOv4 no formato adequado para a FPGA e a preparação de um script para deteção. Posteriormente foi proposta uma arquitetura distribuída, para automatização do processo de envio de imagens do sistema ROS (Robot Operating System), para realização de inferência na FPGA e os respetivos resultados das deteções. Apesar da sua viabilidade de aplicação, foram obtidos resultados significativamente inferiores ao nível de desempenho na inferência (-28%), devido aos vários processos de conversão e configuração da rede neuronal na FPGA. No que diz respeito ao consumo energético, durante a inferência obteve-se 1650 mA, representando um aumento de 28.9% relativamente ao funcionamento operacional e um tempo médio de inferência de 79 mili segundos. Em suma a opção de utilização de uma FPGA, revelou-se viável para inferência, apesar de necessitar de melhorias nos procedimentos de configuração das redes neuronais.
Autores principais:	Padilha, Tiago João Cerveira
Assunto:	Deep learning Visão por computador Dataset Robótica na agricultura Deteção de frutos fpga Inferência Desempenho Redes neuronais
Ano:	2021
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade de Aveiro
Idioma:	português
Origem:	RIA - Repositório Institucional da Universidade de Aveiro

Descrição
Resumo:	A visão por computador, tem-se revelado fundamental na inovação e evolução tecnológica, com um crescimento exponencial ao longo dos últimos anos. As técnicas tradicionais do processamento de imagem, nem sempre são suficientemente capazes de resolver problemas reais de elevada complexidade. A utilização de técnicas deep learning, permitirão desenvolver capacidades de aprendizagem com melhores desempenhos. Na presente dissertação, desenvolvida no INESC TEC nos laboratórios do CRIIS, pretende-se explorar a utilidade do deep learning através da comparação e avaliação de quatro modelos deep learning, YOLOv4, Single Shot Multibox Detector (SSD) ResNet 50, SSD Inception v2, SSD MobileNet v2, para deteção de frutos, designadamente tomate em estufa. O objetivo principal desta comparação é avaliar a rede neuronal com melhor desempenho em inferência, assim como a viabilidade de utilização de dois datasets distintos. Foi utilizado um dataset de tomate adquirido, contra um dataset público Open Image Dataset v6 (OIDv6), para o treino dos quatro modelos. Para a avaliação do desempenho, recorreu-se a um dataset de teste próprio, de tomate em estufa. No final os resultados demonstraram grandes benefícios na utilização do dataset de tomate adquirido, no qual a YOLOv4 obteve o melhor desempenho, com uma precisão de 91%. No caso do OIDv6 os resultados foram muito baixos, devido às caraterísticas do dataset serem muito díspares do dataset de teste. Após a análise das redes neuronais, explorou-se o desenvolvimento da unidade de processamento FPGA (Field Programmable Gate Array ), com o objetivo de avaliar o seu desempenho ao nível de inferência, eficiência energética e tempo de inferência. Iniciou-se pela configuração do modelo YOLOv4 no formato adequado para a FPGA e a preparação de um script para deteção. Posteriormente foi proposta uma arquitetura distribuída, para automatização do processo de envio de imagens do sistema ROS (Robot Operating System), para realização de inferência na FPGA e os respetivos resultados das deteções. Apesar da sua viabilidade de aplicação, foram obtidos resultados significativamente inferiores ao nível de desempenho na inferência (-28%), devido aos vários processos de conversão e configuração da rede neuronal na FPGA. No que diz respeito ao consumo energético, durante a inferência obteve-se 1650 mA, representando um aumento de 28.9% relativamente ao funcionamento operacional e um tempo médio de inferência de 79 mili segundos. Em suma a opção de utilização de uma FPGA, revelou-se viável para inferência, apesar de necessitar de melhorias nos procedimentos de configuração das redes neuronais.