Publicação

THEME-BASED RETRIEVAL OF WEB NEWS

Ver documento

Detalhes bibliográficos
Resumo:A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A explosão da quantidade de informação disponível não foi acompanhada por mecanismos que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem diariamente informação, que nem sempre é convenientemente armazenada. As necessidades de comunidades mais específicas ficam assim relegadas para segundo plano. Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de informação relevante aos interesses dos leitores. Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir operações de pesquisa e organizar os resultados segundo esquemas de classificação normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo: · Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada publicação. · Técnicas avançadas de Recuperação de Informação para permitir pesquisas rápidas e classificação de documentos. · O algoritmo de classificação Support Vector Machines, apontado como o mais eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas classificações. O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%.
Autores principais:Maria, Nuno Miguel de Sousa
Ano:2000
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso restrito
Instituição associada:Universidade de Lisboa
Idioma:português
Origem:Repositório da Universidade de Lisboa
Descrição
Resumo:A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A explosão da quantidade de informação disponível não foi acompanhada por mecanismos que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem diariamente informação, que nem sempre é convenientemente armazenada. As necessidades de comunidades mais específicas ficam assim relegadas para segundo plano. Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de informação relevante aos interesses dos leitores. Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir operações de pesquisa e organizar os resultados segundo esquemas de classificação normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo: · Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada publicação. · Técnicas avançadas de Recuperação de Informação para permitir pesquisas rápidas e classificação de documentos. · O algoritmo de classificação Support Vector Machines, apontado como o mais eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas classificações. O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%.