Publication

Análise de corpora jornalístico através das ocorrências de N-gramas

Bibliographic Details
Summary:	O mundo jornalístico mudou drasticamente com a transição dos meios tradicionais de publicação para o mundo digital. O aumento da informação disponível e o melhoramento dos meios de processamento desta facilitam a sua interpretação, sendo assim possível analisar a importância de certos elementos informativos (memes) ao longo do tempo. O estudo destas tendências permite avaliar as flutuações de interesse dos memes, possibilitando a previsão de novos picos de popularidade e a correlação destes com os eventos que estiveram na origem do referido interesse. Considerando esta realidade, o trabalho proposto nesta tese tem como objectivo a transformação de um corpus jornalístico em dados estatísticos que permitam a análise de tendências ao longo de um período de tempo. A solução proposta deve ter em conta o tamanho do corpus a ser processado e como este afecta o tempo de processamento. Em termos analíticos, deve considerar-se a performance da solução e a validade dos resultados produzidos. Para responder aos objectivos propostos, construi a aplicação Web Público N-Gram Viewer para a criação de dados estatísticos e visualização de tendências de N-Gramas. A análise da performance da solução tem como base o tempo de execução dos diversos algoritmos de criação de N-Gramas para conjuntos de dados de tamanho variável e o número de máquinas usado para o processamento destes. Ao n´nível da validade dos resultados produzidos, são analisados exemplos onde se verifica a correlação entre o número de ocorrências gerado e a ocorrência de eventos que justifiquem o aumento de popularidade.
Main Authors:	Oliveira, João António Monteiro de
Subject:	Prospecção de informação em textos Análise de N-Gramas Indexação de textos Jornalismo computacional Memes Trabalhos de projecto de mestrado - 2015
Year:	2015
Country:	Portugal
Document type:	master thesis
Access type:	open access
Associated institution:	Universidade de Lisboa
Language:	Portuguese
Origin:	Repositório da Universidade de Lisboa

Description
Summary:	O mundo jornalístico mudou drasticamente com a transição dos meios tradicionais de publicação para o mundo digital. O aumento da informação disponível e o melhoramento dos meios de processamento desta facilitam a sua interpretação, sendo assim possível analisar a importância de certos elementos informativos (memes) ao longo do tempo. O estudo destas tendências permite avaliar as flutuações de interesse dos memes, possibilitando a previsão de novos picos de popularidade e a correlação destes com os eventos que estiveram na origem do referido interesse. Considerando esta realidade, o trabalho proposto nesta tese tem como objectivo a transformação de um corpus jornalístico em dados estatísticos que permitam a análise de tendências ao longo de um período de tempo. A solução proposta deve ter em conta o tamanho do corpus a ser processado e como este afecta o tempo de processamento. Em termos analíticos, deve considerar-se a performance da solução e a validade dos resultados produzidos. Para responder aos objectivos propostos, construi a aplicação Web Público N-Gram Viewer para a criação de dados estatísticos e visualização de tendências de N-Gramas. A análise da performance da solução tem como base o tempo de execução dos diversos algoritmos de criação de N-Gramas para conjuntos de dados de tamanho variável e o número de máquinas usado para o processamento destes. Ao n´nível da validade dos resultados produzidos, são analisados exemplos onde se verifica a correlação entre o número de ocorrências gerado e a ocorrência de eventos que justifiquem o aumento de popularidade.