Publicação

Multiword proper nouns in multilingual glossaries for machine translation and post-editing

Detalhes bibliográficos
Resumo:	Este relatório baseia-se no trabalho desenvolvido durante um estágio na Unbabel, uma empresa que utiliza tradução automática e pós-edição de textos traduzidos automaticamente. O estágio envolveu tarefas e responsabilidades nessa área e proporcionou uma experiência envolvente de colaboração. Durante o estágio, foi possível compreender em profundidade as ferramentas e recursos utilizados nas tarefas de pós-edição de tradução automática, bem como fazer sugestões para aprimorá-los. Essa experiência despertou o meu interesse em aprender mais sobre os desafios da tradução de glossários multilingues, com foco especial na tradução de nomes de personagens multipalavra em videojogos. Os glossários multilingues desempenham um papel fundamental no fluxo de trabalho da Unbabel, facilitando a pós-edição de textos traduzidos automaticamente e garantindo a coerência terminológica nos projetos de tradução para clientes específicos. Os processos de criação e tradução dos glossários são realizados manualmente, sendo crucial compreender as prioridades e desafios envolvidos, e a maneira como o sistema de tradução automática e os pós-editores os utilizam. Um glossário bem elaborado simplifica o trabalho dos pós-editores e assegura traduções de melhor qualidade. Este relatório está dividido em seis capítulos. O Capítulo 1 é uma introdução que fornece informações sobre a empresa onde decorreu o estágio e a organização do texto. O Capítulo 2 contém um relatório detalhado sobre as atividades realizadas durante o estágio, incluindo uma descrição das tarefas executadas, os processos de trabalho na empresa, a funcionalidade das ferramentas de tradução e de apoio aos tradutores e os recursos disponíveis para a equipa de tradução. O estágio abrangeu testes de ferramentas para pós-edição de tradução automática, anotação de erros linguísticos em textos de chegada e avaliação de traduções. Também incluiu a utilização e análise de recursos linguísticos, tais como glossários multilingues e guias linguísticos. Isto proporcionou uma compreensão aprofundada de todos os aspetos relacionados com os glossários na Unbabel. Algumas conclusões importantes emergiram da experiência de estágio. Em primeiro lugar, proporcionou uma compreensão aprofundada das ferramentas de controlo de qualidade e de pós-edição, bem como dos seus propósitos e funcionalidades. Em segundo lugar, o ambiente colaborativo incentivou a troca de ideias e o desenvolvimento de pensamento crítico. Mais relevante ainda no âmbito deste relatório de estágio foi a tarefa de curadoria do glossário que proporcionou considerações valiosas sobre aspetos importantes da criação e tradução de glossários. Esta parte inclui reflexões sobre a estrutura das unidades do glossário, identificação de padrões nas unidades de partida e observações sobre como esses padrões foram tratados nas unidades de chegada. Adicionalmente, foram feitas algumas considerações sobre a informação incluída no glossário e a necessidade de informação adicional. O Capítulo 3 estabelece um enquadramento teórico relevante para este estudo. Começa por examinar a evolução da tradução automática e das ferramentas de tradução assistida por computador, fornecendo uma análise das abordagens de gestão de terminologia e glossários. Além disso, reflete sobre expressões multipalavra para fins específicos e com particular ênfase nas unidades de glossário que englobam nomes próprios multipalavra. Destaca-se igualmente a distinção entre glossários concebidos para uso humano e aqueles destinados a serem utilizados por sistemas de tradução automática. Este enquadramento teórico fornece base necessária para a análise dos aspetos práticos deste estudo. O Capítulo 4 descreve a metodologia utilizada para a curadoria do glossário, bem como os critérios de seleção das unidades do glossário para análise. O propósito da curadoria é analisar a estrutura do glossário e das suas unidades, identificando desafios de tradução. Este capítulo também aborda questões relacionadas com a anonimização de dados, em conformidade com a regulamentação de proteção de dados. O processo inclui a recolha de dados, a descrição de alguns dos recursos utilizados, a seleção das unidades do glossário a serem analisadas e os critérios para tal seleção, além de uma análise preliminar que abrange vários aspetos, como a estrutura das unidades e algumas considerações ortográficas. A seleção das unidades do glossário prevê uma análise de unidades que podem apresentar desafios significativos para a tradução automática e a pós-edição humana, nomeadamente unidades compostas por várias palavras. Foi identificado um nível adicional de complexidade em relação a um grupo específico de unidades compostas por várias palavras que corresponde a unidades que se referem a nomes de personagens presentes nos videojogos do cliente pelo que estas foram escolhidas para análise adicional. O Capítulo 5 é o núcleo deste relatório de estágio e concentra-se na análise das unidades de glossário escolhidas. Estas unidades incluem um conjunto de 28 unidades de partida em inglês e as suas respetivas traduções para o búlgaro, o português europeu e o português do Brasil. A análise abrange várias dimensões, incluindo a observação de sequências lineares de categorias morfo-sintácticas dos elementos constituintes das unidades de glossário selecionadas. Adicionalmente são consideradas questões relacionadas com o género, a ordem das palavras e a definitude. Neste capítulo, também são abordados os aspetos criativos observados nos nomes próprios multipalavra, incluindo os efeitos fonéticos que podem influenciar o processo de tradução. A nossa análise revela que a estrutura morfo-sintática das unidades de partida analisadas segue consistentemente o padrão [NOME PRÓPRIO] + [DESCRIÇÃO DEFINIDA]. Em contraste, a estrutura das unidades de chegada em búlgaro e português mostra variações consideráveis. Procede-se à comparação das estruturas das unidades de partida e chegada e examinam-se as estratégias de tradução adotadas. Adicionalmente, são consideradas as mudanças semânticas resultantes das alterações na ordem das palavras. Além disso, no Capítulo 5, explora-se a presença de efeitos fonéticos nas unidades do glossário e a sua importância, especialmente no contexto de nomes de personagens de videojogos. Os efeitos fonéticos, como aliteração, rima e aliteração onomatopaica estão presentes em mais de metade das unidades analisadas (57%). Estes efeitos fonéticos não se limitam apenas à literatura, mas ocorrem também em lemas, jogos de palavras, rimas infantis e letras de canções. No nosso caso, ocorrem em nomes de personagens de videojogos e têm como objetivo aumentar a memorização dos nomes das personagens, tornar os jogos mais envolventes e estabelecer uma ligação entre as personagens ao universo único de cada jogo. Os jogos considerados neste trabalho apelam a um público que aprecia os aspetos lúdicos e criativos de vários elementos do jogo, incluindo os nomes das personagens. Consequentemente, os tradutores devem descobrir todos os significados e efeitos incorporados nas unidades de partida e refleti-los nas unidades de chegada. No entanto, muitas vezes não é possível transferir todas as nuances e facetas da unidade de partida para a unidade de chegada. Este capítulo destaca a relevância do contexto no processo de tradução, em particular ao atribuir género a nomes próprios multipalavra e a considerável quantidade de tempo e pesquisa que muitas vezes é necessária para fundamentar decisões de tradução nesse contexto. Atribuir género a nomes próprios é particularmente desafiante para os tradutores, devido à natureza das línguas de partida e de chegada. Os tradutores têm de atribuir género de forma deliberada às unidades de chegada ou reconciliar diferenças de género não intencionais (ou seja, o género inerente dos substantivos em búlgaro e português com o género percebido de nomes próprios convencionais). Neste processo, frequentemente é necessário investigar fontes públicas sobre os jogos para confirmar ou determinar o género dos nomes próprios pouco comuns. Isso sublinha a importância do contexto no processo de tradução, bem como a quantidade significativa de tempo e esforço que os tradutores devem alocar à pesquisa, quando os criadores de glossários não fornecem contexto suficiente. Além disso, ressalta os potenciais erros que podem ocorrer se os tradutores não tiverem tempo ou acesso para pesquisar a informação indispensável. O Capítulo 6 é reservado às considerações finais do relatório de estágio e inclui algumas recomendações para os criadores e os tradutores de unidades de glossários que incluem nomes próprios multipalavra em glossários para tradução automática e pós-edição de outputs de tradução automática. Em resumo, este relatório de estágio proporciona uma análise aprofundada da curadoria de glossários multilingues e dos desafios associados à tradução. Também aborda questões sobre o universo dos nomes multipalavra de personagens de videojogos. As perceções, recomendações e possíveis direções para investigações futuras aqui apresentadas contribuem para o diálogo contínuo sobre a gestão de glossários multilingues e têm o potencial de melhorar a qualidade da tradução em áreas especializadas, tais como a tradução de conteúdo relacionado com videojogos e a sua localização.
Autores principais:	Metodieva, Nadezhda Andrianova
Ano:	2024
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade de Lisboa
Idioma:	inglês
Origem:	Repositório da Universidade de Lisboa

Descrição
Resumo:	Este relatório baseia-se no trabalho desenvolvido durante um estágio na Unbabel, uma empresa que utiliza tradução automática e pós-edição de textos traduzidos automaticamente. O estágio envolveu tarefas e responsabilidades nessa área e proporcionou uma experiência envolvente de colaboração. Durante o estágio, foi possível compreender em profundidade as ferramentas e recursos utilizados nas tarefas de pós-edição de tradução automática, bem como fazer sugestões para aprimorá-los. Essa experiência despertou o meu interesse em aprender mais sobre os desafios da tradução de glossários multilingues, com foco especial na tradução de nomes de personagens multipalavra em videojogos. Os glossários multilingues desempenham um papel fundamental no fluxo de trabalho da Unbabel, facilitando a pós-edição de textos traduzidos automaticamente e garantindo a coerência terminológica nos projetos de tradução para clientes específicos. Os processos de criação e tradução dos glossários são realizados manualmente, sendo crucial compreender as prioridades e desafios envolvidos, e a maneira como o sistema de tradução automática e os pós-editores os utilizam. Um glossário bem elaborado simplifica o trabalho dos pós-editores e assegura traduções de melhor qualidade. Este relatório está dividido em seis capítulos. O Capítulo 1 é uma introdução que fornece informações sobre a empresa onde decorreu o estágio e a organização do texto. O Capítulo 2 contém um relatório detalhado sobre as atividades realizadas durante o estágio, incluindo uma descrição das tarefas executadas, os processos de trabalho na empresa, a funcionalidade das ferramentas de tradução e de apoio aos tradutores e os recursos disponíveis para a equipa de tradução. O estágio abrangeu testes de ferramentas para pós-edição de tradução automática, anotação de erros linguísticos em textos de chegada e avaliação de traduções. Também incluiu a utilização e análise de recursos linguísticos, tais como glossários multilingues e guias linguísticos. Isto proporcionou uma compreensão aprofundada de todos os aspetos relacionados com os glossários na Unbabel. Algumas conclusões importantes emergiram da experiência de estágio. Em primeiro lugar, proporcionou uma compreensão aprofundada das ferramentas de controlo de qualidade e de pós-edição, bem como dos seus propósitos e funcionalidades. Em segundo lugar, o ambiente colaborativo incentivou a troca de ideias e o desenvolvimento de pensamento crítico. Mais relevante ainda no âmbito deste relatório de estágio foi a tarefa de curadoria do glossário que proporcionou considerações valiosas sobre aspetos importantes da criação e tradução de glossários. Esta parte inclui reflexões sobre a estrutura das unidades do glossário, identificação de padrões nas unidades de partida e observações sobre como esses padrões foram tratados nas unidades de chegada. Adicionalmente, foram feitas algumas considerações sobre a informação incluída no glossário e a necessidade de informação adicional. O Capítulo 3 estabelece um enquadramento teórico relevante para este estudo. Começa por examinar a evolução da tradução automática e das ferramentas de tradução assistida por computador, fornecendo uma análise das abordagens de gestão de terminologia e glossários. Além disso, reflete sobre expressões multipalavra para fins específicos e com particular ênfase nas unidades de glossário que englobam nomes próprios multipalavra. Destaca-se igualmente a distinção entre glossários concebidos para uso humano e aqueles destinados a serem utilizados por sistemas de tradução automática. Este enquadramento teórico fornece base necessária para a análise dos aspetos práticos deste estudo. O Capítulo 4 descreve a metodologia utilizada para a curadoria do glossário, bem como os critérios de seleção das unidades do glossário para análise. O propósito da curadoria é analisar a estrutura do glossário e das suas unidades, identificando desafios de tradução. Este capítulo também aborda questões relacionadas com a anonimização de dados, em conformidade com a regulamentação de proteção de dados. O processo inclui a recolha de dados, a descrição de alguns dos recursos utilizados, a seleção das unidades do glossário a serem analisadas e os critérios para tal seleção, além de uma análise preliminar que abrange vários aspetos, como a estrutura das unidades e algumas considerações ortográficas. A seleção das unidades do glossário prevê uma análise de unidades que podem apresentar desafios significativos para a tradução automática e a pós-edição humana, nomeadamente unidades compostas por várias palavras. Foi identificado um nível adicional de complexidade em relação a um grupo específico de unidades compostas por várias palavras que corresponde a unidades que se referem a nomes de personagens presentes nos videojogos do cliente pelo que estas foram escolhidas para análise adicional. O Capítulo 5 é o núcleo deste relatório de estágio e concentra-se na análise das unidades de glossário escolhidas. Estas unidades incluem um conjunto de 28 unidades de partida em inglês e as suas respetivas traduções para o búlgaro, o português europeu e o português do Brasil. A análise abrange várias dimensões, incluindo a observação de sequências lineares de categorias morfo-sintácticas dos elementos constituintes das unidades de glossário selecionadas. Adicionalmente são consideradas questões relacionadas com o género, a ordem das palavras e a definitude. Neste capítulo, também são abordados os aspetos criativos observados nos nomes próprios multipalavra, incluindo os efeitos fonéticos que podem influenciar o processo de tradução. A nossa análise revela que a estrutura morfo-sintática das unidades de partida analisadas segue consistentemente o padrão [NOME PRÓPRIO] + [DESCRIÇÃO DEFINIDA]. Em contraste, a estrutura das unidades de chegada em búlgaro e português mostra variações consideráveis. Procede-se à comparação das estruturas das unidades de partida e chegada e examinam-se as estratégias de tradução adotadas. Adicionalmente, são consideradas as mudanças semânticas resultantes das alterações na ordem das palavras. Além disso, no Capítulo 5, explora-se a presença de efeitos fonéticos nas unidades do glossário e a sua importância, especialmente no contexto de nomes de personagens de videojogos. Os efeitos fonéticos, como aliteração, rima e aliteração onomatopaica estão presentes em mais de metade das unidades analisadas (57%). Estes efeitos fonéticos não se limitam apenas à literatura, mas ocorrem também em lemas, jogos de palavras, rimas infantis e letras de canções. No nosso caso, ocorrem em nomes de personagens de videojogos e têm como objetivo aumentar a memorização dos nomes das personagens, tornar os jogos mais envolventes e estabelecer uma ligação entre as personagens ao universo único de cada jogo. Os jogos considerados neste trabalho apelam a um público que aprecia os aspetos lúdicos e criativos de vários elementos do jogo, incluindo os nomes das personagens. Consequentemente, os tradutores devem descobrir todos os significados e efeitos incorporados nas unidades de partida e refleti-los nas unidades de chegada. No entanto, muitas vezes não é possível transferir todas as nuances e facetas da unidade de partida para a unidade de chegada. Este capítulo destaca a relevância do contexto no processo de tradução, em particular ao atribuir género a nomes próprios multipalavra e a considerável quantidade de tempo e pesquisa que muitas vezes é necessária para fundamentar decisões de tradução nesse contexto. Atribuir género a nomes próprios é particularmente desafiante para os tradutores, devido à natureza das línguas de partida e de chegada. Os tradutores têm de atribuir género de forma deliberada às unidades de chegada ou reconciliar diferenças de género não intencionais (ou seja, o género inerente dos substantivos em búlgaro e português com o género percebido de nomes próprios convencionais). Neste processo, frequentemente é necessário investigar fontes públicas sobre os jogos para confirmar ou determinar o género dos nomes próprios pouco comuns. Isso sublinha a importância do contexto no processo de tradução, bem como a quantidade significativa de tempo e esforço que os tradutores devem alocar à pesquisa, quando os criadores de glossários não fornecem contexto suficiente. Além disso, ressalta os potenciais erros que podem ocorrer se os tradutores não tiverem tempo ou acesso para pesquisar a informação indispensável. O Capítulo 6 é reservado às considerações finais do relatório de estágio e inclui algumas recomendações para os criadores e os tradutores de unidades de glossários que incluem nomes próprios multipalavra em glossários para tradução automática e pós-edição de outputs de tradução automática. Em resumo, este relatório de estágio proporciona uma análise aprofundada da curadoria de glossários multilingues e dos desafios associados à tradução. Também aborda questões sobre o universo dos nomes multipalavra de personagens de videojogos. As perceções, recomendações e possíveis direções para investigações futuras aqui apresentadas contribuem para o diálogo contínuo sobre a gestão de glossários multilingues e têm o potencial de melhorar a qualidade da tradução em áreas especializadas, tais como a tradução de conteúdo relacionado com videojogos e a sua localização.