Author(s):
Mendes, Armando B. ; Funk, Gabriela ; Funk, Matthias ; Sousa, Áurea
Date: 2007
Persistent ID: http://hdl.handle.net/10400.3/2158
Origin: Repositório da Universidade dos Açores
Subject(s): Extracção de Conhecimento; Metodologia CRISP_DM; Preparação de Dados e Pré-Processamento; Provérbios; Análise de Dados Simbólicos
Description
4º Encontro de Cultura Popular, Ponta Delgada, 18 e 19 de Maio de 2006.
Neste artigo, apresentam-se os resultados, ainda parciais, do projecto de análise de uma base de dados construída para identificação de provérbios. Esta base de dados integra informação sobre 25.000 expressões idiomáticas e mais de um milhar de respostas válidas a inquéritos de reconhecimento de provérbios. Os objectivos do projecto incluem várias actividades desde a compreensão do domínio e dos dados até à extracção de conhecimento que permita caracterizar utilizadores de grupos de provérbios e prever a região geográfica onde estes têm vivido. A metodologia CRISP-DM é utilizada e ilustrada, de acordo com estes objectivos. Dá-se especial ênfase às fases de preparação e pré-processamento, limpeza de dados e à modelação e análise de dados. Utilizam-se métodos de análise de dados como as árvores de regressão e classificação e a análise de clusters. Utilizam-se igualmente dados simbólicos tendo em conta a estrutura complexa e a existência de variabilidade interna. Os resultados já obtidos são comparados com o conhecimento de domínio paremiológico.