Publicação

THEME-BASED RETRIEVAL OF WEB NEWS

Detalhes bibliográficos
Resumo:	A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A explosão da quantidade de informação disponível não foi acompanhada por mecanismos que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem diariamente informação, que nem sempre é convenientemente armazenada. As necessidades de comunidades mais específicas ficam assim relegadas para segundo plano. Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de informação relevante aos interesses dos leitores. Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir operações de pesquisa e organizar os resultados segundo esquemas de classificação normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo: · Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada publicação. · Técnicas avançadas de Recuperação de Informação para permitir pesquisas rápidas e classificação de documentos. · O algoritmo de classificação Support Vector Machines, apontado como o mais eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas classificações. O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%.
Autores principais:	Maria, Nuno Miguel de Sousa
Ano:	2000
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso restrito
Instituição associada:	Universidade de Lisboa
Idioma:	português
Origem:	Repositório da Universidade de Lisboa

Descrição
Resumo:	A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A explosão da quantidade de informação disponível não foi acompanhada por mecanismos que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem diariamente informação, que nem sempre é convenientemente armazenada. As necessidades de comunidades mais específicas ficam assim relegadas para segundo plano. Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de informação relevante aos interesses dos leitores. Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir operações de pesquisa e organizar os resultados segundo esquemas de classificação normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo: · Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada publicação. · Técnicas avançadas de Recuperação de Informação para permitir pesquisas rápidas e classificação de documentos. · O algoritmo de classificação Support Vector Machines, apontado como o mais eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas classificações. O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%.