Publicação
Extracção de recursos de tradução com base em dicionários probabilísticos de tradução
| Resumo: | Os recursos bilingues mais abundantes são os corpora paralelos. Resultam de toda uma história de tradução de instituições e organizações internacionais. Estes corpora constituem um recurso de tradução muito rico, mas que precisa de ser tratado para ser útil: é necessária a sua preparação, realçando conhecimento que se encontra camuflado. Neste trabalho pretende-se obter conhecimento de diferentes tipos: dicionários de tradução, terminologia bilingue, exemplos de tradução (segmentos equivalentes) ou mesmo n-gramas. Para além de realizar a extracção destes recursos, pretende-se definir uma álgebra que os permita manusear e tratar. O ponto inicial na extracção de recursos bilingues corresponde à definição de pontes básicas entre as duas línguas: relacionamentos entre palavras, que são representados como dicionários probabilísticos de tradução. Com base nos corpora paralelos e nos dicionários probabilísticos de tradução são extraídos diferentes tipos de recursos, como sejam exemplos de tradução ou terminologia bilingue. A necessidade de adaptar os vários recursos bilingues extraídos ás situações concretas em que vão ser usados leva a que seja útil um ambiente para o desenvolvimento e prototipagem de processadores de recursos. Este ambiente é constituído por um servidor de recursos e uma API de ordem superior que os permite manipular. Os recursos bilingues, para além de poderem ser utilizados de forma programática, são úteis por si só. Neste sentido, é importante a sua disponibilização para consulta interactiva através da Internet, e para uso local através de dicionários off-line. Dado que todos os métodos usados se baseiam em estatística, e que se pretende uma grande cobertura lexical dos recursos obtidos, é necessário processar corpora de grandes dimensões, pelo que se usam mecanismos de decomposição e ferramentas de suporte ao processamento paralelo que permitem a escalabilidade dos métodos desenvolvidos. |
|---|---|
| Autores principais: | Simões, Alberto |
| Ano: | 2008 |
| País: | Portugal |
| Tipo de documento: | tese de doutoramento |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade do Minho |
| Idioma: | português |
| Origem: | RepositóriUM - Universidade do Minho |
| Resumo: | Os recursos bilingues mais abundantes são os corpora paralelos. Resultam de toda uma história de tradução de instituições e organizações internacionais. Estes corpora constituem um recurso de tradução muito rico, mas que precisa de ser tratado para ser útil: é necessária a sua preparação, realçando conhecimento que se encontra camuflado. Neste trabalho pretende-se obter conhecimento de diferentes tipos: dicionários de tradução, terminologia bilingue, exemplos de tradução (segmentos equivalentes) ou mesmo n-gramas. Para além de realizar a extracção destes recursos, pretende-se definir uma álgebra que os permita manusear e tratar. O ponto inicial na extracção de recursos bilingues corresponde à definição de pontes básicas entre as duas línguas: relacionamentos entre palavras, que são representados como dicionários probabilísticos de tradução. Com base nos corpora paralelos e nos dicionários probabilísticos de tradução são extraídos diferentes tipos de recursos, como sejam exemplos de tradução ou terminologia bilingue. A necessidade de adaptar os vários recursos bilingues extraídos ás situações concretas em que vão ser usados leva a que seja útil um ambiente para o desenvolvimento e prototipagem de processadores de recursos. Este ambiente é constituído por um servidor de recursos e uma API de ordem superior que os permite manipular. Os recursos bilingues, para além de poderem ser utilizados de forma programática, são úteis por si só. Neste sentido, é importante a sua disponibilização para consulta interactiva através da Internet, e para uso local através de dicionários off-line. Dado que todos os métodos usados se baseiam em estatística, e que se pretende uma grande cobertura lexical dos recursos obtidos, é necessário processar corpora de grandes dimensões, pelo que se usam mecanismos de decomposição e ferramentas de suporte ao processamento paralelo que permitem a escalabilidade dos métodos desenvolvidos. |
|---|