Autor(es):
Mendes, Armando B. ; Funk, Gabriela ; Funk, Matthias ; Sousa, Áurea
Data: 2007
Identificador Persistente: http://hdl.handle.net/10400.3/2158
Origem: Repositório da Universidade dos Açores
Assunto(s): Extracção de Conhecimento; Metodologia CRISP_DM; Preparação de Dados e Pré-Processamento; Provérbios; Análise de Dados Simbólicos
Descrição
Neste artigo, apresentam-se os resultados, ainda parciais, do projecto de análise de uma base de dados construída para identificação de provérbios. Esta base de dados integra informação sobre 25.000 expressões idiomáticas e mais de um milhar de respostas válidas a inquéritos de reconhecimento de provérbios. Os objectivos do projecto incluem várias actividades desde a compreensão do domínio e dos dados até à extracção de conhecimento que permita caracterizar utilizadores de grupos de provérbios e prever a região geográfica onde estes têm vivido. A metodologia CRISP-DM é utilizada e ilustrada, de acordo com estes objectivos. Dá-se especial ênfase às fases de preparação e pré-processamento, limpeza de dados e à modelação e análise de dados. Utilizam-se métodos de análise de dados como as árvores de regressão e classificação e a análise de clusters. Utilizam-se igualmente dados simbólicos tendo em conta a estrutura complexa e a existência de variabilidade interna. Os resultados já obtidos são comparados com o conhecimento de domínio paremiológico.