Document details

Quality in machine translation and human post-editing : error annotation and specifications

Author(s): Comparin, Lucia

Date: 2017

Persistent ID: http://hdl.handle.net/10451/27969

Origin: Repositório da Universidade de Lisboa

Subject(s): Tradução automática; Edição; Teses de mestrado - 2017; Domínio/Área Científica::Humanidades::Línguas e Literaturas; Domínio/Área Científica::Humanidades::Línguas e Literaturas; Domínio/Área Científica::Humanidades::Línguas e Literaturas


Description

Machine translation (MT) has been an important field of research in the last decades and is currently playing a key role in the translation market. The variable quality of results depending on various factors makes it necessary to combine MT with post-editing, to obtain high-quality translation. Post-editing is, nonetheless, a costly and time-consuming task. In order to improve the overall performance of a translation workflow involving MT, it is crucial to evaluate the quality of results produced to identify the main errors and outline strategies to address them. In this study, we assessed the results of MT and after the first human post-edition at Unbabel, a Portuguese startup that provides translation services combining MT with post-editing performed online by a community of editors. A corpus of texts translated at Unbabel from English into Italian was annotated after MT and after the first post-edition step. The data collected allowed us to identify three types of errors that are frequent and critical in terms of quality, namely “word order”, “agreement”, and “tense/mood/aspect”. Hence, correcting the errors belonging to these categories would have a major impact on the quality of translation and turn the post-editing process more accurate and efficient. The errors annotated in the corpus were analyzed in order to identify common patterns of errors, and possible solutions to address the issues identified were outlined. The MT system used at Unbabel and the tools available determined the choice to integrate information retrieved by error analysis in the Smartcheck, the tool used at Unbabel to automatically detect errors in the target text produced by the MT system and provide relevant messages to the editors. Therefore, our study focused on the definition and integration of rules in the Smartcheck to detect the most frequent and critical errors in the texts, in order to provide informative and accurate messages to the editor to aid him/her in the post-editing process.

A tradução automática tem vindo a assumir uma grande importância no mercado da tradução e representa atualmente uma importante área de investigação. Durante os últimos cinquenta anos, vários sistemas de tradução automática foram desenvolvidos com base em paradigmas e abordagens diferentes. Os sistemas de tradução automática podem ser divididos entre sistemas baseados em conhecimento linguístico em forma de regras e sistemas baseados em corpora de textos, como os estatísticos e os baseados em exemplos. Além disso, nas últimas décadas, paradigmas diferentes foram combinados para desenvolver sistemas híbridos que utilizam corpora de textos, como nos sistemas estatísticos ou nos baseados em exemplos, mas integram regras e princípios linguísticos, como nos sistemas baseados em conhecimento, para resolver dificuldades gramaticais ou lexicais. Os sistemas de tradução automática são cada vez mais utilizados no processo de tradução, devido ao crescente volume de textos para traduzir e aos curtos prazos estabelecidos. Apesar de haver diferentes sistemas, os resultados são variáveis no que diz respeito à qualidade, dependendo do paradigma e do grau de especialização do sistema e dos textos a traduzir num determinado domínio. Estes factos impõem a necessidade de realizar uma edição dos textos, que pode ocorrer antes da tradução (pré-edição) ou depois (pós-edição). No primeiro caso, do texto de partida são eliminadas as estruturas ou palavras que representam dificuldades para a tradução automática realizada por um sistema em particular. No segundo caso, o texto traduzido pelo sistema é controlado e corrigido por um revisor humano. Para que este tipo de processo possa ser utilizado em grande escala no mercado da tradução, é importante reduzir os custos que lhe são inerentes e agilizá-lo. Além da pré-edição ou pós-edição, em função do paradigma considerado, integrar mais informação linguística ou atualizar os recursos lexicais utilizados permite melhorar os resultados da tradução automática. O presente trabalho tem como objeto de estudo o controlo de qualidade na área da tradução automática, mais especificamente, na fase de pós-edição. O estudo e a análise dos resultados da tradução automática e da fase de pós-edição permitem delinear estratégias para intervir em dois sentidos: por um lado, melhorar os resultados do sistema de tradução automática graças à integração de mais informação no sistema; por outro lado, apoiar o trabalho do revisor na pós-edição, destacando erros prováveis ou assinalando pontos críticos. A avaliação dos resultados da tradução automática inclui uma fase de análise dos erros presentes no texto de chegada e uma classificação dos mesmos, de acordo com uma tipologia de categorias de erros. No estudo da fase de pós-edição, a análise dos erros mais frequentemente corrigidos pelos revisores permite identificar que tipo de informação deve ser integrada no sistema de tradução automática e que instruções podem ser úteis aos revisores. Para a realização desta análise, adotou-se um sistema de classificação a fim de categorizar os erros e, portanto, de realizar uma avaliação quantitativa da qualidade da tradução. O presente trabalho de projeto foi realizado em colaboração com a Unbabel, uma startup portuguesa que oferece serviços de tradução quase em tempo real, combinando tradução automática com uma comunidade de revisores. O corpus que é utilizado para a realização do trabalho que aqui se propõe é formado por textos em língua inglesa, traduzidos para italiano através de um sistema de tradução automática, corrigidos e editados por vários revisores humanos. São analisados os erros presentes nos textos de chegada após a tradução automática e a primeira revisão. A identificação e a análise dos erros permite chegar a generalizações sob a forma de regras a ser implementadas no processo tradução e pós-edição de textos realizado pela Unbabel. Em particular, as regras destinam-se à integração numa ferramenta que identifica automaticamente os erros no texto de chegada de algumas categorias específicas, depois da tradução automática e durante o processo de pós-edição. A ferramenta assinala o erro e, em função do tipo de problema, sugere ao revisor uma correção ou dá-lhe indicações para prestar atenção a um aspeto particular da sequência assinalada, pois é provável que contenha um erro. O presente trabalho divide-se em oito capítulos em que são abordados os temas fundamentais envolvidos na realização do trabalho. No primeiro capítulo apresenta-se o objeto de estudo, a motivação do trabalho de projeto, a abordagem metodológica adoptada e a organização do documento. No segundo capítulo apresenta-se a fundamentação teórica em que se baseou o estudo. Aborda-se brevemente a história da tradução automática, desde as suas primeiras tentativas em meados do século XX, até aos mais recentes sistemas da primeira década do século XXI. Após a apresentação da história, são descritas algumas dificuldades linguísticas e operacionais relacionadas com a tradução automática e apresenta-se uma descrição dos diferentes sistemas de tradução automática, nomeadamente os baseados em conhecimento linguístico, os baseados em corpora e os híbridos. No terceiro capítulo apresenta-se o processo de tradução automática utilizado na Unbabel, fazendo-se uma breve descrição dos passos que o compõem, o sistema de tradução automática usado para a tradução dos textos do corpus e as ferramentas utilizadas na fase de pós-edição para a deteção de erros e para os testes de qualidade. No quarto capítulo introduz-se a tarefa da anotação de erros descrevendo-se, em primeiro lugar, a tipologia de erros adotada na análise e a ferramenta usada para a tarefa. Seguidamente, é apresentado o corpus de textos considerado neste estudo e são apresentados os dados recolhidos, nomeadamente o número de erros anotados nos textos depois da tradução automática e depois da primeira fase de pós-edição. Uma análise do número de erros anotados nas várias categorias de erros segue-se a apresentação dos dados e justifica a escolha de algumas categorias de erros para as quais são propostas soluções. Nos três capítulos seguintes são analizados os erros que pertencem às três categorias escolhidas, nomeadamente “word order” (ordem de palavras), no quinto capítulo, “agreement” (concordância), no sexto capítulo, e “tense/mood/aspect” (tempo/modo/aspeto), no sétimo capítulo. Em primeiro lugar, para cada categoria de erro, são abordadas as linhas gerais que caraterizam o fenómeno linguístico em inglês e italiano, e em seguida, os erros anotados são analisados e divididos em sub-categorias. Isto permite encontrar padrões de erros frequentes e generalizá-los, de maneira a poder propor soluções gerais que dêem conta de todos os erros do mesmo tipo. No último capítulo apresentam-se as conclusões e o trabalho futuro que pode ser realizado como continuação do presente estudo e aproveitando aspetos que não foi possível explorar no âmbito do trabalho de projeto aqui apresentado. Em suma, o presente trabalho centra-se na identificação de questões problemáticas e na proposta de soluções para a melhoria da qualidade dos resultados no processo de tradução automática, na fase de pós-edição, constituindo um importante contributo não só para a formação da mestranda no âmbito dos sistemas de tradução automática e do seu funcionamento, como também para a melhoria do desempenho do sistema de trabalho específico levado a cabo na Unbabel.

Document Type Master thesis
Language English
Advisor(s) Mendes, Sara
Contributor(s) Comparin, Lucia
facebook logo  linkedin logo  twitter logo 
mendeley logo