Author(s):
Rafael Macário Fernandes ; Souza, Rodrigo ; Lopes, Marcos ; Santos, Paulo ; Finbow, Thomas
Date: 2025
Origin: Linguamática
Subject(s): neural machine translation; spatial semantics; qualitative spatial reasoning; English-Portuguese machine translation; polysemy; language typology; tradução automática; semântica espacial; raciocínio espacial qualitativo; tradução automática inglês-português; polissemia; tipologia linguística
Description
Neural models for Machine Translation have been proving significant advances in performance in recent years, becoming the most widely employed tools for that task. Nevertheless, they still struggle with semantically complex expressions. In this paper, we investigated the performance of two of the most widely used systems available today, namely Google Translator and DeepL, in translating expressions involving representing objects in physical space, always using the same prepositions in English, divided into situations admitting spatial interpretations or not. Formalizations based on Qualitative Spatial Reasoning models are applied to the representation of the spatialized expressions, making it possible to compare the logical form of spatial information in the original texts and in automatic translations from English into Portuguese. Results show that these two major translation systems still make many mistakes when it comes to relatively complex expressions. Among them, Google Translator had more errors globally (35.52%) whereas DeepL, with the best overall performance (11.72% of errors), made significantly more mistakes with expressions involving spatiality, which suggests that translating these expressions increases the difficulty of translation for this model. In addition, a study on the specific type of difficulties in spatialized expressions shows that the most frequent machine translation problem concerns the incorporation of manner into the predicate, which is realized by different means in English (where the verb tends to incorporate manner) and in Portuguese (where manner is realized in adjuncts to the verb). Results from the present work may provide specific criteria for evaluating and improving machine translation models between these and other languages in which the same differences in predication occur.
Os modelos neurais para a Tradução Automática representaram importantes avanços de desempenho por relação a modelos anteriores e, por isso, vêm sendo os mais empregados já há vários anos, mas ainda enfrentam dificuldades com expressões semanticamente mais complexas. Neste trabalho, investigamos o desempenho de dois dos sistemas de tradução automática mais utilizados da atualidade, Google Translator e DeepL, em expressões envolvendo representação e relação de objetos no espaço físico, sempre com a participação das mesmas preposições em inglês, divididas em situações com e sem interpretação espacial. Para a representação das expressões espacializadas, são aplicadas formalizações baseadas em modelos de Raciocínio Espacial Qualitativo, o que permite comparar a forma lógica de informações espaciais nos textos originais e em traduções automáticas do inglês para o português.Os resultados mostram que esses dois grandes sistemas de tradução ainda cometem muitos erros com essas expressões de relativa complexidade. Entre eles, o Google Translator é o que mais erra globalmente (35,52% de erros). O DeepL, com melhor desempenho global (11,72% de erros), comete significativamente mais erros em expressões envolvendo espacialidade, o que sugere que a tradução dessas expressões aumenta a dificuldade da tradução para esse modelo. Além disso, ao realizar um estudo sobre o tipo específico das dificuldades em expressões espacializadas, vê-se que o problema de tradução automática mais frequente diz respeito à incorporação ou não de circunstâncias da ação, o que se realiza no predicado de formas distintas no inglês (em que o verbo tende a incorporar a maneira) e no português (em que a maneira é realizada em adjuntos do verbo). Os~resultados do presente trabalho fornecem elementos específicos para a avaliação e o aprimoramento dos modelos de tradução automática entre essas e outras línguas em que as mesmas diferenças de representação do predicado se verifiquem.
Os modelos neurais para a Tradução Automática representaram importantes avanços de desempenho por relação a modelos anteriores e, por isso, vêm sendo os mais empregados já há vários anos, mas ainda enfrentam dificuldades com expressões semanticamente mais complexas. Neste trabalho, investigamos o desempenho de dois dos sistemas de tradução automática mais utilizados da atualidade, Google Translator e DeepL, em expressões envolvendo representação e relação de objetos no espaço físico, sempre com a participação das mesmas preposições em inglês, divididas em situações com e sem interpretação espacial. Para a representação das expressões espacializadas, são aplicadas formalizações baseadas em modelos de Raciocínio Espacial Qualitativo, o que permite comparar a forma lógica de informações espaciais nos textos originais e em traduções automáticas do inglês para o português.Os resultados mostram que esses dois grandes sistemas de tradução ainda cometem muitos erros com essas expressões de relativa complexidade. Entre eles, o Google Translator é o que mais erra globalmente (35,52% de erros). O DeepL, com melhor desempenho global (11,72% de erros), comete significativamente mais erros em expressões envolvendo espacialidade, o que sugere que a tradução dessas expressões aumenta a dificuldade da tradução para esse modelo. Além disso, ao realizar um estudo sobre o tipo específico das dificuldades em expressões espacializadas, vê-se que o problema de tradução automática mais frequente diz respeito à incorporação ou não de circunstâncias da ação, o que se realiza no predicado de formas distintas no inglês (em que o verbo tende a incorporar a maneira) e no português (em que a maneira é realizada em adjuntos do verbo). Os~resultados do presente trabalho fornecem elementos específicos para a avaliação e o aprimoramento dos modelos de tradução automática entre essas e outras línguas em que as mesmas diferenças de representação do predicado se verifiquem.