Document details

Semantic image retrieval and subset selection for robot vision

Author(s): Pereira, Rui Manuel Fernandes

Date: 2008

Persistent ID: http://hdl.handle.net/10773/2042

Origin: RIA - Repositório Institucional da Universidade de Aveiro

Subject(s): Engenharia de computadores; Robótica; Visão por computador; Reconhecimento de formas; Semântica de computadores


Description

Pesquisa semântica e selecção de sub-conjuntos de imagens são um instrumento valioso na produção de bases de conhecimento para reconhecimento de objectos e visão semântica em robótica. Estas técnicas são também úteis para catalogar e organizar grandes colecções de imagens, tanto para uso pessoal como profissional. Foi desenvolvido um sistema que, dada uma lista de categorias de objectos, tem a capacidade de recuperar da Web imagens potencialmente representativas dessas categorias e subsequentemente tentar identificar as mais repre- sentativas, descartando as restantes. Também foi realizado algum trabalho no uso das imagens seleccionadas como boas representações das categorias como exemplos de treino para reconhecimento de objectos em cenas complexas. O objectivo principal do trabalho foi assim produzir parte de um sistema mais amplo que, quando completo, seria capaz de participar no Semantic Robot Vision Challenge e, apoiando-se apenas numa lista de nomes de categorias, construir os seus modelos e reconhecê-las no palco da competição. Usou-se uma abordagem baseada em agrupar as imagens recuperadas segundo similaridades par a par, usando descritores globais de forma para categorias gerais e características locais SIFT para categorias específicas. Ambas as representações são também usadas no processo de classificação. Aprendemos que é possível obter boa selecção de sub-conjuntos usando como critério o número de vezes que uma imagem aparece no maior grupo, admitindo que existem suficientes boas representações de categorias em cada conjunto. Concluiu-se também que Shape Contexts podem ser usados como descritores globais, com bons resultados para categorias gerais, e que SIFT é melhor para categorias específicas. Adicionalmente, ao integrar este trabalho no sistema global, verificou-se que, combinando classificadores baseados em diferentes descritores globais de forma, usando um sistema de votos, se obtêm melhores resultados do que com os classificadores individuais. Os resultados da avaliação deste trabalho expõem os seus pontos fortes e fracos, bem como das suas partes individuais. ABSTRACT: Semantic image retrieval and subset selection are valuable tools in producing knowledge bases to support object recognition. These techniques are also useful for cataloging and organizing large image collections, whether for personal or corporate use. We have developed a system that, given a list of object categories, is able to retrieve potentially representative images of those categories from the Web and subsequently try to separate the useful images from the coexisting non-representative images. Some work was also performed in using the images selected as good category instances as training examples for object recognition in complex scenes. The main objective of the work was to produce part of a wider system that, upon completion, would be able to enter the Semantic Robot Vision Challenge, where, relying only on a list of category names, would build their models and recognize them in the competition scenario. We used an approach based on unsupervised clustering of the retrieved images according to pairwise similarity, using Shape Contexts as global descriptors for general categories and SIFT local features for specific categories. Both types of representations are also used in the classification process. We learned that it is possible to achieve good subset selection using as a criterion the number of times an image appears in the biggest cluster, providing there are sufficient good representative images in each set. We also concluded that Shape Context can be used as a global descriptor (Global Shape Context - GSC), with good results for general categories and that SIFT is better for specific categories. Additionally, by integrating this work in the global system, we also learned that combining the Global Shape Context classifier with a Roy’s Shape Representation (RSR) classifier, via a voting system, yields better results than the individual classifiers. The results on the evaluation of this work outline its strong and weak points, both as whole and as a coherent set of individual parts.

Document Type Master thesis
Language English
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents