Publicação

O Forro: a construção de um corpus

Ver documento

Detalhes bibliográficos
Resumo:Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.
Autores principais:Tiny, Abigail
Outros Autores:Amaro, Haldane; Hendrickx, Iris; Hagemeijer, Tjerk
Assunto:São Tomé Crioulo Forro (santome) Corpus linguístico Normalização Anotação Creole Linguistic corpus Normalization Annotation
Ano:2012
País:Portugal
Tipo de documento:capítulo de livro
Tipo de acesso:acesso aberto
Instituição associada:ISCTE
Idioma:português
Origem:Repositório ISCTE
Descrição
Resumo:Este trabalho apresenta o processo de construção de um corpus de material oral e escrito do forro (santome), um crioulo de base lexical portuguesa falado na ilha de São Tomé. O corpus compreende dados da segunda metade do século XIX até ao presente. Abordamos as dificuldades típicas de línguas não oficiais que são predominantemente orais, tais como a normalização ortográfica e um conjunto de dados mais restrito. Para a compilação do corpus seguimos padrões linguísticos de corpora e para codificar os metadados utilizámos a codificação de carateres UTF-8 e XML. Definimos um conjunto de metadados e apresentamos as etiquetas desenvolvido para a anotação dos dados com informação linguística.