Publicação

Framework to edit and use data from fieldwork in linguistic research

Ver documento

Detalhes bibliográficos
Resumo:O presente trabalho foi realizado no Centro Interdisciplinar de Documentação Linguística e Social, no âmbito do projeto “Framework to edit and use data from fieldwork in linguistic research”, que é um dos sub-projetos pertencentes ao CLARIN (Common Language Resource and Technology Infrastructure) dentro do 7º Programa Quadro da UE (FP7). O objetivo do projeto consiste na construção de uma ponte entre os formatos de dados e ficheiros usados na documentação de línguas – especialmente ELAN-Annotation-Format – e os formatos de dados usados em corpus linguísticos e em Processamento de Linguagem Natural, NLP (Natural Language Processing), que hoje são armazenados em arquivos de línguas como o The Language Archive no Instituto Max Planck, situado em Nijmegen, Holanda. O projeto consiste no desenvolvimento de uma biblioteca que transforme os formatos de dados e ficheiros numa estrutura de dados unificados, seguindo uma implementação da ISO 24612 LAF (Linguistic Annotation Framework).
Autores principais:Lopes, António Manuel Rodrigues
Assunto:Linguistic Annotation Framework Processamento de linguagem Corpus linguístico
Ano:2013
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Instituto Politécnico de Leiria
Idioma:português
Origem:IC-online
Descrição
Resumo:O presente trabalho foi realizado no Centro Interdisciplinar de Documentação Linguística e Social, no âmbito do projeto “Framework to edit and use data from fieldwork in linguistic research”, que é um dos sub-projetos pertencentes ao CLARIN (Common Language Resource and Technology Infrastructure) dentro do 7º Programa Quadro da UE (FP7). O objetivo do projeto consiste na construção de uma ponte entre os formatos de dados e ficheiros usados na documentação de línguas – especialmente ELAN-Annotation-Format – e os formatos de dados usados em corpus linguísticos e em Processamento de Linguagem Natural, NLP (Natural Language Processing), que hoje são armazenados em arquivos de línguas como o The Language Archive no Instituto Max Planck, situado em Nijmegen, Holanda. O projeto consiste no desenvolvimento de uma biblioteca que transforme os formatos de dados e ficheiros numa estrutura de dados unificados, seguindo uma implementação da ISO 24612 LAF (Linguistic Annotation Framework).