Publicação

Extracção de recursos de tradução com base em dicionários probabilísticos de tradução

Detalhes bibliográficos
Resumo:	Os recursos bilingues mais abundantes são os corpora paralelos. Resultam de toda uma história de tradução de instituições e organizações internacionais. Estes corpora constituem um recurso de tradução muito rico, mas que precisa de ser tratado para ser útil: é necessária a sua preparação, realçando conhecimento que se encontra camuflado. Neste trabalho pretende-se obter conhecimento de diferentes tipos: dicionários de tradução, terminologia bilingue, exemplos de tradução (segmentos equivalentes) ou mesmo n-gramas. Para além de realizar a extracção destes recursos, pretende-se definir uma álgebra que os permita manusear e tratar. O ponto inicial na extracção de recursos bilingues corresponde à definição de pontes básicas entre as duas línguas: relacionamentos entre palavras, que são representados como dicionários probabilísticos de tradução. Com base nos corpora paralelos e nos dicionários probabilísticos de tradução são extraídos diferentes tipos de recursos, como sejam exemplos de tradução ou terminologia bilingue. A necessidade de adaptar os vários recursos bilingues extraídos ás situações concretas em que vão ser usados leva a que seja útil um ambiente para o desenvolvimento e prototipagem de processadores de recursos. Este ambiente é constituído por um servidor de recursos e uma API de ordem superior que os permite manipular. Os recursos bilingues, para além de poderem ser utilizados de forma programática, são úteis por si só. Neste sentido, é importante a sua disponibilização para consulta interactiva através da Internet, e para uso local através de dicionários off-line. Dado que todos os métodos usados se baseiam em estatística, e que se pretende uma grande cobertura lexical dos recursos obtidos, é necessário processar corpora de grandes dimensões, pelo que se usam mecanismos de decomposição e ferramentas de suporte ao processamento paralelo que permitem a escalabilidade dos métodos desenvolvidos.
Autores principais:	Simões, Alberto
Ano:	2008
País:	Portugal
Tipo de documento:	tese de doutoramento
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade do Minho
Idioma:	português
Origem:	RepositóriUM - Universidade do Minho

Descrição
Resumo:	Os recursos bilingues mais abundantes são os corpora paralelos. Resultam de toda uma história de tradução de instituições e organizações internacionais. Estes corpora constituem um recurso de tradução muito rico, mas que precisa de ser tratado para ser útil: é necessária a sua preparação, realçando conhecimento que se encontra camuflado. Neste trabalho pretende-se obter conhecimento de diferentes tipos: dicionários de tradução, terminologia bilingue, exemplos de tradução (segmentos equivalentes) ou mesmo n-gramas. Para além de realizar a extracção destes recursos, pretende-se definir uma álgebra que os permita manusear e tratar. O ponto inicial na extracção de recursos bilingues corresponde à definição de pontes básicas entre as duas línguas: relacionamentos entre palavras, que são representados como dicionários probabilísticos de tradução. Com base nos corpora paralelos e nos dicionários probabilísticos de tradução são extraídos diferentes tipos de recursos, como sejam exemplos de tradução ou terminologia bilingue. A necessidade de adaptar os vários recursos bilingues extraídos ás situações concretas em que vão ser usados leva a que seja útil um ambiente para o desenvolvimento e prototipagem de processadores de recursos. Este ambiente é constituído por um servidor de recursos e uma API de ordem superior que os permite manipular. Os recursos bilingues, para além de poderem ser utilizados de forma programática, são úteis por si só. Neste sentido, é importante a sua disponibilização para consulta interactiva através da Internet, e para uso local através de dicionários off-line. Dado que todos os métodos usados se baseiam em estatística, e que se pretende uma grande cobertura lexical dos recursos obtidos, é necessário processar corpora de grandes dimensões, pelo que se usam mecanismos de decomposição e ferramentas de suporte ao processamento paralelo que permitem a escalabilidade dos métodos desenvolvidos.