Publicação
THEME-BASED RETRIEVAL OF WEB NEWS
| Resumo: | A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A explosão da quantidade de informação disponível não foi acompanhada por mecanismos que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem diariamente informação, que nem sempre é convenientemente armazenada. As necessidades de comunidades mais específicas ficam assim relegadas para segundo plano. Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de informação relevante aos interesses dos leitores. Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir operações de pesquisa e organizar os resultados segundo esquemas de classificação normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo: · Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada publicação. · Técnicas avançadas de Recuperação de Informação para permitir pesquisas rápidas e classificação de documentos. · O algoritmo de classificação Support Vector Machines, apontado como o mais eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas classificações. O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%. |
|---|---|
| Autores principais: | Maria, Nuno Miguel de Sousa |
| Ano: | 2000 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso restrito |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | português |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | A Internet é hoje um meio privilegiado de publicação da informação noticiosa. A explosão da quantidade de informação disponível não foi acompanhada por mecanismos que auxiliem a sua descoberta de forma eficiente. Os motores de pesquisa tradicionais não estão optimizados para cobrirem serviços que pela sua natureza dinâmica produzem diariamente informação, que nem sempre é convenientemente armazenada. As necessidades de comunidades mais específicas ficam assim relegadas para segundo plano. Torna-se desta forma necessário um mecanismo que auxilie a pesquisa e recuperação de informação relevante aos interesses dos leitores. Nesta dissertação, apresento o sistema NewsSearch, de gestão, pesquisa e classificação de informação noticiosa publicada na Internet. O NewsSearch tem como objectivo permitir operações de pesquisa e organizar os resultados segundo esquemas de classificação normalizados. O sistema utiliza uma combinação de técnicas para atingir este objectivo: · Múltiplas filas de indexação, para tratar as diferentes periodicidades de cada publicação. · Técnicas avançadas de Recuperação de Informação para permitir pesquisas rápidas e classificação de documentos. · O algoritmo de classificação Support Vector Machines, apontado como o mais eficiente actualmente, aplicado à informação noticiosa e estendido para múltiplas classificações. O NewsSearch provou ser uma solução escalável, com necessidades de armazenamento quando aplicado ao tratamento de um conjunto alargado de publicações. A combinação de um conjunto de optimizações específicas, filtragem do ruído encontrado nas páginas das notícias e a partilha de várias categorias pela mesma notícia, resultou numa precisão na classificação de cerca de 95%. |
|---|