Publication
Análise de corpora jornalístico através das ocorrências de N-gramas
| Summary: | O mundo jornalístico mudou drasticamente com a transição dos meios tradicionais de publicação para o mundo digital. O aumento da informação disponível e o melhoramento dos meios de processamento desta facilitam a sua interpretação, sendo assim possível analisar a importância de certos elementos informativos (memes) ao longo do tempo. O estudo destas tendências permite avaliar as flutuações de interesse dos memes, possibilitando a previsão de novos picos de popularidade e a correlação destes com os eventos que estiveram na origem do referido interesse. Considerando esta realidade, o trabalho proposto nesta tese tem como objectivo a transformação de um corpus jornalístico em dados estatísticos que permitam a análise de tendências ao longo de um período de tempo. A solução proposta deve ter em conta o tamanho do corpus a ser processado e como este afecta o tempo de processamento. Em termos analíticos, deve considerar-se a performance da solução e a validade dos resultados produzidos. Para responder aos objectivos propostos, construi a aplicação Web Público N-Gram Viewer para a criação de dados estatísticos e visualização de tendências de N-Gramas. A análise da performance da solução tem como base o tempo de execução dos diversos algoritmos de criação de N-Gramas para conjuntos de dados de tamanho variável e o número de máquinas usado para o processamento destes. Ao n´nível da validade dos resultados produzidos, são analisados exemplos onde se verifica a correlação entre o número de ocorrências gerado e a ocorrência de eventos que justifiquem o aumento de popularidade. |
|---|---|
| Main Authors: | Oliveira, João António Monteiro de |
| Subject: | Prospecção de informação em textos Análise de N-Gramas Indexação de textos Jornalismo computacional Memes Trabalhos de projecto de mestrado - 2015 |
| Year: | 2015 |
| Country: | Portugal |
| Document type: | master thesis |
| Access type: | open access |
| Associated institution: | Universidade de Lisboa |
| Language: | Portuguese |
| Origin: | Repositório da Universidade de Lisboa |
| Summary: | O mundo jornalístico mudou drasticamente com a transição dos meios tradicionais de publicação para o mundo digital. O aumento da informação disponível e o melhoramento dos meios de processamento desta facilitam a sua interpretação, sendo assim possível analisar a importância de certos elementos informativos (memes) ao longo do tempo. O estudo destas tendências permite avaliar as flutuações de interesse dos memes, possibilitando a previsão de novos picos de popularidade e a correlação destes com os eventos que estiveram na origem do referido interesse. Considerando esta realidade, o trabalho proposto nesta tese tem como objectivo a transformação de um corpus jornalístico em dados estatísticos que permitam a análise de tendências ao longo de um período de tempo. A solução proposta deve ter em conta o tamanho do corpus a ser processado e como este afecta o tempo de processamento. Em termos analíticos, deve considerar-se a performance da solução e a validade dos resultados produzidos. Para responder aos objectivos propostos, construi a aplicação Web Público N-Gram Viewer para a criação de dados estatísticos e visualização de tendências de N-Gramas. A análise da performance da solução tem como base o tempo de execução dos diversos algoritmos de criação de N-Gramas para conjuntos de dados de tamanho variável e o número de máquinas usado para o processamento destes. Ao n´nível da validade dos resultados produzidos, são analisados exemplos onde se verifica a correlação entre o número de ocorrências gerado e a ocorrência de eventos que justifiquem o aumento de popularidade. |
|---|