Document details

Classificação e agregação automática de notícias desportivas

Author(s): Almeida, André Pinho de

Date: 2014

Persistent ID: http://hdl.handle.net/10400.22/5594

Origin: Repositório Científico do Instituto Politécnico do Porto

Subject(s): Texto; Classificação; Clustering; Notícias; Desporto; Text; Classification; News; Sports


Description

Mestrado em Engenharia Informática - Área de Especialização em Arquiteturas, Sistemas e Redes

Este relatório foi elaborado no âmbito da dissertação para obtenção do Grau de Mestre em Engenharia Informática do Instituto Superior de Engenharia do Porto Foi desenvolvido com vista o auxílio da implementação de um módulo de classificação e agregação (clustering) automática de notícias desportivas. Este módulo será implementado numa aplicação web relacionada com o desporto a ser desenvolvida futuramente. O principal objetivo do trabalho desenvolvido é perceber entre inúmeras possibilidades existentes para classificação e clustering de documentos quais as que melhor se adequam face às exigências necessárias. Aqueles que apresentaram melhores resultados foram os escolhidos para a fase de implementação do módulo de classificação e clustering de notícias. Em primeiro lugar foi realizado um levantamento do estado da arte de forma a se ter conhecimento de todas as possibilidades existentes. Face a essas possibilidades, foram selecionados dois algoritmos para cada um dos temas a abordar. Os algoritmos escolhidos foram aquelas que se verificaram os mais adequados. Para a classificação foram selecionados o Support Vector Machine (SVM) e K-Nearest Neighbors. Para o clustering, algoritmos hierárquicos e o K-means adaptável. Cada uma dessas possibilidades foi devidamente avaliada de forma a perceber quais as melhores soluções face aos problemas propostos. Foi também feita uma breve abordagem à sumarização de documentos, contudo, este é um tema secundário. O principal foco do trabalho desenvolvido é a classificação e clustering de texto. Este trabalho foi feito em cooperação com LIAAD/INESC TEC - Laboratório de Inteligência Artificial e Apoio à Decisão sob a supervisão do Dr. Nuno Escudeiro

This report has been made as part of the Computer Engineering Master’s dissertation from School of Engineering – Polytechnic of Porto. The report has been developed in order to aid the implementation of an automatic process for sports news classification and clustering. That module will be implemented in a web application related with sports. The main goal for this research is to understand among various possibilities which ones fit best given the necessary requirements of the module to be developed. Those who present the best evaluations will be chosen to be implemented in the classification and clustering module. Firstly has been made a survey of the state of the art in order to have knowledge of all possibilities. Given those possibilities, for each topic were selected two algorithms. The chosen algorithms were those that found to be the most suitable. For text categorization were selected the Support Vector Machine (SVM) and the K-Nearest Neighbors (KNN) algorithms. For document clustering, were selected hierarchical algorithms and the adaptable k-means algorithm. Then, each of these possibilities have been properly evaluated in order to understand which are the best solutions. Was also made a brief approach to the documents summarization, however, this is a secondary topic. The main focus of this report is document classification and clustering. This work was made in cooperation with LIAAD/INESC TEC – “Laboratório de Inteligência Artificial e Apoio à Decisão” with supervision of Dr. Nuno Escudeiro

Document Type Master thesis
Language Portuguese
Advisor(s) Escudeiro, Nuno
Contributor(s) Repositório Científico do Instituto Politécnico do Porto
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents