Publicação
XML schemas for parallel corpora
| Resumo: | Parallel corpora are resources used in Natural Language Processing and Computational Linguistics. They are defined as a set of texts, in different languages, that are translations of each other. Note that these translations do not need to cover the full document, as we might have sentences translated just on some of the languages. When dealing with the process of sharing resources, recent years have bet on the use of XML formats. This is no different when talking about parallel corpora sharing. When visiting different projects in the web that release parallel corpora for download, we can find at least three different formats. In fact, this abundance of formats has led some projects to adopt all the three formats. This article discusses these three main formats: XML Corpus Encoding Standard, Translation Memory Exchange format and the Text Encoding Initiative. We will compare their formal definition and their XML schema. |
|---|---|
| Autores principais: | Simões, Alberto |
| Outros Autores: | Fernandes, Sara |
| Assunto: | XML Corpora Parallel corpora XML schemas |
| Ano: | 2011 |
| País: | Portugal |
| Tipo de documento: | comunicação em conferência |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade do Minho |
| Idioma: | inglês |
| Origem: | RepositóriUM - Universidade do Minho |
Registos relacionados
article NatServer: a client-server architecture for building Parallel Corpora applications
por: Simões, Alberto
Publicado em: (2006)
por: Simões, Alberto
Publicado em: (2006)
article Automatic parallel corpora and bilingual terminology extraction from parallel WebSites
por: Almeida, J. J.
Publicado em: (2010)
por: Almeida, J. J.
Publicado em: (2010)
article Parallel corpora based translation resources extraction
por: Simões, Alberto
Publicado em: (2007)
por: Simões, Alberto
Publicado em: (2007)
article Processing Annotated TMX Parallel Corpora
por: Brito, Rui Miguel Magalhães
Publicado em: (2014)
por: Brito, Rui Miguel Magalhães
Publicado em: (2014)
article XCSL: XML constraint specification language
por: Jacinto, Marta Henriques
Publicado em: (2002)
por: Jacinto, Marta Henriques
Publicado em: (2002)
article XCSL: XML constraint specification language
por: Jacinto, Marta Henriques
Publicado em: (2003)
por: Jacinto, Marta Henriques
Publicado em: (2003)
article Introducing the per-fide project: parallelizing portuguese with six different languages (Español, Russian, Français, Italiano, Deutsch, English)
por: Araújo, Sílvia
Publicado em: (2010)
por: Araújo, Sílvia
Publicado em: (2010)
article XML templates for constraints (XTC): um nível de abstracção para linguagens de especificação de restrições
por: Jacinto, Marta Henriques
Publicado em: (2003)
por: Jacinto, Marta Henriques
Publicado em: (2003)
article Inferência de tipos em documentos XML
por: Almeida, J. J.
Publicado em: (2005)
por: Almeida, J. J.
Publicado em: (2005)
groups QTLeap WSD/NED Corpora: Semantic Annotation of Parallel Corpora in Six Languages
por: Otegi, Arantxa
Publicado em: (2016)
por: Otegi, Arantxa
Publicado em: (2016)
article XML na demografia histórica: anotação de registos paroquiais
por: Félix, Rafael Fernandes
Publicado em: (2002)
por: Félix, Rafael Fernandes
Publicado em: (2002)
article Apresentação do projecto Per-Fide: paralelizando o Português com seis outras línguas
por: Araújo, Sílvia
Publicado em: (2010)
por: Araújo, Sílvia
Publicado em: (2010)
article Grabbing parallel corpora from the web
por: Almeida, J. J.
Publicado em: (2002)
por: Almeida, J. J.
Publicado em: (2002)
article Bilingual example segmentation based on markers hypothesis
por: Simões, Alberto
Publicado em: (2009)
por: Simões, Alberto
Publicado em: (2009)
article Parallel corpus-based bilingual terminology extraction
por: Gómez Guinovart, Xavier
Publicado em: (2009)
por: Gómez Guinovart, Xavier
Publicado em: (2009)
article Terminology extraction from English-Portuguese and English-Galician parallel corpora based on probabilistic translation dictionaries and bilingual syntactic patterns
por: Gómez Guinovart, Xavier
Publicado em: (2009)
por: Gómez Guinovart, Xavier
Publicado em: (2009)
groups A parallel algorithm for statistical multiword term extraction from very large corpora
por: Gonçalves, Carlos
Publicado em: (2015)
por: Gonçalves, Carlos
Publicado em: (2015)
article NATools: a statistical word aligner workbench
por: Simões, Alberto
Publicado em: (2003)
por: Simões, Alberto
Publicado em: (2003)
article Coupled schema transformation and data conversion for XML and SQL
por: Berdaguer, Pablo
Publicado em: (2007)
por: Berdaguer, Pablo
Publicado em: (2007)
article Combinatory examples extraction for machine translation
por: Simões, Alberto
Publicado em: (2006)
por: Simões, Alberto
Publicado em: (2006)
article Translation dictionaries triangulation
por: Simões, Alberto
Publicado em: (2010)
por: Simões, Alberto
Publicado em: (2010)
article Extraction of restricted lexical combinations by detecting non-compositionality of multiword expressions
por: Veloso, Joana Isabel da Silva
Publicado em: (2016)
por: Veloso, Joana Isabel da Silva
Publicado em: (2016)
article TX: validação de XML baseada em tipos dinâmicos
por: Almeida, J. J.
Publicado em: (2004)
por: Almeida, J. J.
Publicado em: (2004)
article Down translating XML
por: Simões, Alberto
Publicado em: (2004)
por: Simões, Alberto
Publicado em: (2004)
article Processing XML: a rewriting system approach
por: Simões, Alberto
Publicado em: (2010)
por: Simões, Alberto
Publicado em: (2010)
article Alinhamento de corpora paralelos
por: Simões, Alberto
Publicado em: (2003)
por: Simões, Alberto
Publicado em: (2003)
article A workflow description language to orchestrate multi-lingual resources
por: Brito, Rui
Publicado em: (2014)
por: Brito, Rui
Publicado em: (2014)
article Multifocal: a strategic bidirectional transformation language for XML schemas
por: Pacheco, Hugo
Publicado em: (2012)
por: Pacheco, Hugo
Publicado em: (2012)
article XML parsing in javascript
por: Simões, Alberto
Publicado em: (2017)
por: Simões, Alberto
Publicado em: (2017)
school Domain specific language generation based on a XML schema
por: Duarte, Luís Carlos da Silva
Publicado em: (2019)
por: Duarte, Luís Carlos da Silva
Publicado em: (2019)
book Avaliação de alinhadores
por: Simões, Alberto
Publicado em: (2007)
por: Simões, Alberto
Publicado em: (2007)
article Bilingual terminology extraction based on translation patterns
por: Simões, Alberto
Publicado em: (2008)
por: Simões, Alberto
Publicado em: (2008)
article Bidirectional conversion between XML documents and relational data bases
por: Jacinto, Marta Henriques
Publicado em: (2002)
por: Jacinto, Marta Henriques
Publicado em: (2002)
category Diacrítica [32:3, 2018]: Corpora nas humanidades digitais
por: Universidade do Minho. Centro de Estudos Humanísticos
Publicado em: (2020)
por: Universidade do Minho. Centro de Estudos Humanísticos
Publicado em: (2020)
article Geração dinâmica de APIs Perl para criação de XML
por: Almeida, J. J.
Publicado em: (2006)
por: Almeida, J. J.
Publicado em: (2006)
article Ensinador: Corpus-based Portuguese grammar exercises
por: Simões, Alberto
Publicado em: (2011)
por: Simões, Alberto
Publicado em: (2011)
category Culinária brasileira: um CorTrad mais saboroso com o CulBras
por: Rebechi, Rozane R.
Publicado em: (2025)
por: Rebechi, Rozane R.
Publicado em: (2025)
article Representação em XML da Floresta Sintáctica
por: Vilela, Rui
Publicado em: (2005)
por: Vilela, Rui
Publicado em: (2005)
article Processing XML with Java – a performance benchmark
por: Oliveira, Bruno
Publicado em: (2013)
por: Oliveira, Bruno
Publicado em: (2013)
article Performance analysis of JAVA APIs for XML processing
por: Oliveira, Bruno
Publicado em: (2013)
por: Oliveira, Bruno
Publicado em: (2013)
Registos relacionados
-
article NatServer: a client-server architecture for building Parallel Corpora applications
por: Simões, Alberto
Publicado em: (2006) -
article Automatic parallel corpora and bilingual terminology extraction from parallel WebSites
por: Almeida, J. J.
Publicado em: (2010) -
article Parallel corpora based translation resources extraction
por: Simões, Alberto
Publicado em: (2007) -
article Processing Annotated TMX Parallel Corpora
por: Brito, Rui Miguel Magalhães
Publicado em: (2014) -
article XCSL: XML constraint specification language
por: Jacinto, Marta Henriques
Publicado em: (2002)