Publicação

Estruturas de dados para representação de um léxico bilingue

Ver documento

Detalhes bibliográficos
Resumo:Através do processo de tradução, vários textos importantes tornaram-se universais e disponíveis em várias línguas. A globalização torna o processo de tradução cada vez mais crítico, devido à maior quantidade de textos disponíveis online, sendo por isso importante desenvolver novos projectos nesta área. O objectivo desta dissertação foi implementar um sistema para gestão e representação de um léxico bilingue. O léxico bilingue é uma estrutura essencial em ferramentas para tradução e armazena expressões de duas línguas diferentes. A implementação do sistema é baseada em árvores de sufixos generalizadas, uma para cada linguagem representada. As árvores de sufixos são construídas usando o algoritmo de Ukkonen. Na gestão das duas árvores de sufixos definem-se ligações de correspondência entre duas expressões de línguas diferentes, que sejam adicionados ao sistema, marcando-os como tradução um do outro. Porém, a característica única do sistema é a cobertura, que pode ser monolingue ou bilingue. A cobertura monolingue verifica quais os segmentos de uma expressão que se encontram na respectiva árvore. A cobertura bilingue faz a mesma verificação para um par de expressões, analisando depois quais os diferentes pares de segmentos têm ligação de correspondência entre eles. Com este tipo de informação, o sistema torna-se muito útil a aplicações que envolvam extracção de pares de tradução e alinhamento de textos paralelos, permitindo descobrir traduções que sejam desconhecidas. No final, é feita uma comparação da eficiência das operações de cobertura com uma implementação baseada nas árvores de sufixos, contra uma implementação baseada em arrays de sufixos.
Autores principais:Costa, Jorge André Nogueira da
Assunto:Cobertura Correspondência Alinhamento Tradução Léxico
Ano:2010
País:Portugal
Tipo de documento:dissertação de mestrado
Tipo de acesso:acesso aberto
Instituição associada:Universidade Nova de Lisboa
Idioma:português
Origem:Repositório Institucional da UNL
Descrição
Resumo:Através do processo de tradução, vários textos importantes tornaram-se universais e disponíveis em várias línguas. A globalização torna o processo de tradução cada vez mais crítico, devido à maior quantidade de textos disponíveis online, sendo por isso importante desenvolver novos projectos nesta área. O objectivo desta dissertação foi implementar um sistema para gestão e representação de um léxico bilingue. O léxico bilingue é uma estrutura essencial em ferramentas para tradução e armazena expressões de duas línguas diferentes. A implementação do sistema é baseada em árvores de sufixos generalizadas, uma para cada linguagem representada. As árvores de sufixos são construídas usando o algoritmo de Ukkonen. Na gestão das duas árvores de sufixos definem-se ligações de correspondência entre duas expressões de línguas diferentes, que sejam adicionados ao sistema, marcando-os como tradução um do outro. Porém, a característica única do sistema é a cobertura, que pode ser monolingue ou bilingue. A cobertura monolingue verifica quais os segmentos de uma expressão que se encontram na respectiva árvore. A cobertura bilingue faz a mesma verificação para um par de expressões, analisando depois quais os diferentes pares de segmentos têm ligação de correspondência entre eles. Com este tipo de informação, o sistema torna-se muito útil a aplicações que envolvam extracção de pares de tradução e alinhamento de textos paralelos, permitindo descobrir traduções que sejam desconhecidas. No final, é feita uma comparação da eficiência das operações de cobertura com uma implementação baseada nas árvores de sufixos, contra uma implementação baseada em arrays de sufixos.