Publicação
Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
| Resumo: | Nas interacções linguísticas do dia-a-dia, os seres humanos estão constantemente a fazer lematização verbal por forma a processar correctamente a informação que lhes e transmitida por intermédio da linguagem natural, em particular a quer e veiculada por expressões de natureza verbal. Este procedimento consiste em descobrir a forma infinitiva dos verbos. A lematização verbal e um processo de complexidade variável, dependendo da língua natural que esteja a ser usada. Em algumas línguas (como o ingles), esse processo e bastante simples, enquanto que noutras esse processo de maior complexidade. O português é uma das línguas em que esse processo é bastante complexo. Essa complexidade está em relação directa com a riqueza do sistema de flexão verbal, uma característica partilhada com outras línguas cuja sua origem e o Latim, por exemplo. Em termos do processamento computacional do português, a complexidade do sistema de flexão verbal da língua portuguesa reflecte-se na importância da criação de ferramentas automáticas para desempenharem a tarefa de lematização. O presente documento apresenta o trabalho desenvolvido na criação de uma ferramenta automática que permite a lematização verbal do português. Esta ferramenta lida com os dois aspectos chave da linguagem natural que são críticos para o processamento computacional - a ambiguidade e a novidade – na forma elas assumem nesta tarefa especifica de lematização verbal: determinação da asserção flexional que uma expressão verbal ambígua acontece formar um determinado contexto de ocorrência (resolução da ambiguidade); determinação das acepções flexionais veiculadas por uma expressão verbal desconhecida do sistema (acomodação da novidade). Este documento começa com uma introdução (Cap. 1) na qual e descrito de forma genérica o problema a resolver e as motivações para a sua resolução. Neste primeiro capitulo e também apresentado o enquadramento institucional em que o trabalho foi desenvolvido e a estrutura do resto do documento. Segue-se um capitulo (Cap. 2) onde são apresentados com todo o pormenor o problema a resolver assim como os objectivos que se visou cumprir com o trabalho. Aqui e apresentada uma descrição dos mecanismos de conjugação, lematização e traçamento verbais e a forma como os clíticos interagem com as formas verbais. Inicialmente são descritos os elementos que constituem um traço de flexão, indicando-se como esses elementos se podem combinar entre si para formar um traço de flexão, sendo apresentado um quadro com todos os traços existentes no português. E indicado como diferentes formas verbais formam tempos compostos. São também abordados os verbos defectivos, indicam-se os diferentes tipos de verbos defectivos existentes e quais os traços de flexão que cada um possui. E ainda indicado a constituição dos lemas, assim como a sua classificação consoante a sua vogal temática. Ainda neste capitulo e apresentada a forma como o problema da conjugação verbal está apresentado nos dicionários de verbos. É indicado o que são e como funcionam as tabelas de conjugação. É identificado o que é um paradigma de conjugação, o que são verbos modelo, e como estes podem ser usados para construir as tabelas de conjugação de outros verbos. É mostrado como a substituição de terminações no lema permite a formação de formas flexionadas desse lema (regras de conjugação), e quais as diferentes características que elas tem relativamente aos verbos regulares, irregulares e pseudo-irregulares. Este capitulo continua com a descrição de como funciona o processo de lematização verbal, e como é possível a angariação das regras de lematização a partir das regras de conjugação sendo também introduzida a problemática da ambiguidade verbal, mostrando-se como podem surgir ambiguidades durante o processo de lematização. É igualmente apresentado o processo de traçamento verbal e as suas semelhanças de funcionamento com o processo de lematização. Após a descrição destes processos, são apresentados os pronomes clíticos, sendo descritas as três possíveis forma de colocação em relação ao verbo e em que situações elas podem ocorrer. É indicada uma classificação em três grupos, que será seguida durante o trabalho e a forma como os clíticos correspondente a cada grupo interagem entre si para formar uma sequência de cliticos. São também abordados os possíveis casos de ambiguidade provocados pela presença de clíticos. O capítulo 2 termina com a descrição dos desafios que tiveram de ser superados durante a realização das tarefas propostas. Segue-se (Cap. 3) uma descrição de trabalhos realizados com alguma relação com a lematização verbal automática, realizados tanto para o português como para outras línguas. No capitulo seguinte (Cap. 4) é apresentado o algoritmo de lematização e traçamento e a implementação de uma ferramenta que efectua lematização e traçamento verbal de base. A ferramenta devolve vários tuplos compostos por um lema e um traço verbal. São descritas as diversas listas necessárias a sua implementação, bem como as estruturas que foram utilizadas para as guardar. Após a descrição dessa ferramenta é mostrado como ela fui utilizada para a criação de um serviço online de lematização e traçamento verbal do português. É apresentada uma descrição da interface desse servico e a forma como os resultados são apresentados. São descritos os desafios adicionais inerentes a uma versão online. É feita uma descrição detalhada da implementação de um algoritmo que faz validação prévia do input introduzido pelo utilizador, identificação de formas verbais e clíticos, separação de sequência de clíticos, identificação da colocação da sequência de clíticos, validação das regras relativas aos clíticos e reconstituição da forma verbal. É também indicado como é feito o tratamento dos tempos compostos. Depois de descrita a implementação do serviço online é indicado o teste que foi feito para verificar a fiabilidade da ferramenta desenvolvida, e como esse teste foi usado para obter versões corrigidas. Segue-se a apresentação de um estudo sobre a ambiguidade verbal (Cap. 5). No estudo são indicados os diferentes tipos de ambiguidade verbal e são apresentados os valores que quantificam a sua cobertura no léxico e num corpus. Para que a questão da ambiguidade possa ser resolvida, e necessário que o lematizador seja aplicado expressões verbais que ocorrem em texto corrido e não apenas a uma expressão verbal isolada. No entanto, há que saber quais são as formas verbais presentes no texto que se pretende analisar. É então que são indicadas as ferramentas que são aplicadas ao texto antes que este chegue ao lematizador verbal. São explicadas as etiquetas morfo-sintácticas que identificam formas verbais, sendo indicado as restrições que devem ser impostas a nível de lematização e traçamento dessa forma, e o formato com que elas são apresentadas para o lematizador assim como o esperado formato de saáda. Por fim, é explicada a forma como os clíticos se encontram assinalados, e a maneira como essa informação é tratada por forma a que possam ser aplicadas restrições aos resultados a obter. De seguida são descritos os algoritmos alternativos, implementados para a tarefa de desambiguação do traço de flexão verbal. É descrito o funcionamento de cada algoritmo e a forma como foram implementados. É apresentado uma análise dos resultados obtidos com os diferentes algoritmos. Após ter sido feito uma análise comparativa para a tarefa de desambiguação de traços de flexão, é feita análise similar para os lemas verbais, onde são indicadas as alterações que os algoritmos sofreram por forma a suportar a tarefa de lematização. Finalmente, são comparados os resultados das duas tarefas (lematização e traçamento) entre os diferentes algoritmos. Os resultados da avaliação do algoritmo com melhor desempenho são então comparados com trabalhos similares com resultados publicados, donde se conclui que, com o presente trabalho se conseguiu notoriamente fazer avançar o estado da arte neste domínio. Por fim, é feita uma análise dos erros mais frequentes cometidos pela ferramenta. Finalmente, é apresentado um resumo das ferramentas resultantes do trabalho realizado (Cap. 6). É também resumido a problemática da ambiguidade verbal, bem como os resultados de cada uma das diferentes abordagens para resolver o problema. É feito uma comparação resumida com os trabalhos anteriores que são comparáveis, e finalmente são depois apresentadas várias linhas de orientação para trabalho futuro. |
|---|---|
| Autores principais: | Nunes, Filipe Varela |
| Assunto: | Processamento de linguagem natural Lematização Conjugação Morfologia Desambiguação Trabalhos de projecto de mestrado - 2007 |
| Ano: | 2007 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | inglês |
| Origem: | Repositório da Universidade de Lisboa |
| Resumo: | Nas interacções linguísticas do dia-a-dia, os seres humanos estão constantemente a fazer lematização verbal por forma a processar correctamente a informação que lhes e transmitida por intermédio da linguagem natural, em particular a quer e veiculada por expressões de natureza verbal. Este procedimento consiste em descobrir a forma infinitiva dos verbos. A lematização verbal e um processo de complexidade variável, dependendo da língua natural que esteja a ser usada. Em algumas línguas (como o ingles), esse processo e bastante simples, enquanto que noutras esse processo de maior complexidade. O português é uma das línguas em que esse processo é bastante complexo. Essa complexidade está em relação directa com a riqueza do sistema de flexão verbal, uma característica partilhada com outras línguas cuja sua origem e o Latim, por exemplo. Em termos do processamento computacional do português, a complexidade do sistema de flexão verbal da língua portuguesa reflecte-se na importância da criação de ferramentas automáticas para desempenharem a tarefa de lematização. O presente documento apresenta o trabalho desenvolvido na criação de uma ferramenta automática que permite a lematização verbal do português. Esta ferramenta lida com os dois aspectos chave da linguagem natural que são críticos para o processamento computacional - a ambiguidade e a novidade – na forma elas assumem nesta tarefa especifica de lematização verbal: determinação da asserção flexional que uma expressão verbal ambígua acontece formar um determinado contexto de ocorrência (resolução da ambiguidade); determinação das acepções flexionais veiculadas por uma expressão verbal desconhecida do sistema (acomodação da novidade). Este documento começa com uma introdução (Cap. 1) na qual e descrito de forma genérica o problema a resolver e as motivações para a sua resolução. Neste primeiro capitulo e também apresentado o enquadramento institucional em que o trabalho foi desenvolvido e a estrutura do resto do documento. Segue-se um capitulo (Cap. 2) onde são apresentados com todo o pormenor o problema a resolver assim como os objectivos que se visou cumprir com o trabalho. Aqui e apresentada uma descrição dos mecanismos de conjugação, lematização e traçamento verbais e a forma como os clíticos interagem com as formas verbais. Inicialmente são descritos os elementos que constituem um traço de flexão, indicando-se como esses elementos se podem combinar entre si para formar um traço de flexão, sendo apresentado um quadro com todos os traços existentes no português. E indicado como diferentes formas verbais formam tempos compostos. São também abordados os verbos defectivos, indicam-se os diferentes tipos de verbos defectivos existentes e quais os traços de flexão que cada um possui. E ainda indicado a constituição dos lemas, assim como a sua classificação consoante a sua vogal temática. Ainda neste capitulo e apresentada a forma como o problema da conjugação verbal está apresentado nos dicionários de verbos. É indicado o que são e como funcionam as tabelas de conjugação. É identificado o que é um paradigma de conjugação, o que são verbos modelo, e como estes podem ser usados para construir as tabelas de conjugação de outros verbos. É mostrado como a substituição de terminações no lema permite a formação de formas flexionadas desse lema (regras de conjugação), e quais as diferentes características que elas tem relativamente aos verbos regulares, irregulares e pseudo-irregulares. Este capitulo continua com a descrição de como funciona o processo de lematização verbal, e como é possível a angariação das regras de lematização a partir das regras de conjugação sendo também introduzida a problemática da ambiguidade verbal, mostrando-se como podem surgir ambiguidades durante o processo de lematização. É igualmente apresentado o processo de traçamento verbal e as suas semelhanças de funcionamento com o processo de lematização. Após a descrição destes processos, são apresentados os pronomes clíticos, sendo descritas as três possíveis forma de colocação em relação ao verbo e em que situações elas podem ocorrer. É indicada uma classificação em três grupos, que será seguida durante o trabalho e a forma como os clíticos correspondente a cada grupo interagem entre si para formar uma sequência de cliticos. São também abordados os possíveis casos de ambiguidade provocados pela presença de clíticos. O capítulo 2 termina com a descrição dos desafios que tiveram de ser superados durante a realização das tarefas propostas. Segue-se (Cap. 3) uma descrição de trabalhos realizados com alguma relação com a lematização verbal automática, realizados tanto para o português como para outras línguas. No capitulo seguinte (Cap. 4) é apresentado o algoritmo de lematização e traçamento e a implementação de uma ferramenta que efectua lematização e traçamento verbal de base. A ferramenta devolve vários tuplos compostos por um lema e um traço verbal. São descritas as diversas listas necessárias a sua implementação, bem como as estruturas que foram utilizadas para as guardar. Após a descrição dessa ferramenta é mostrado como ela fui utilizada para a criação de um serviço online de lematização e traçamento verbal do português. É apresentada uma descrição da interface desse servico e a forma como os resultados são apresentados. São descritos os desafios adicionais inerentes a uma versão online. É feita uma descrição detalhada da implementação de um algoritmo que faz validação prévia do input introduzido pelo utilizador, identificação de formas verbais e clíticos, separação de sequência de clíticos, identificação da colocação da sequência de clíticos, validação das regras relativas aos clíticos e reconstituição da forma verbal. É também indicado como é feito o tratamento dos tempos compostos. Depois de descrita a implementação do serviço online é indicado o teste que foi feito para verificar a fiabilidade da ferramenta desenvolvida, e como esse teste foi usado para obter versões corrigidas. Segue-se a apresentação de um estudo sobre a ambiguidade verbal (Cap. 5). No estudo são indicados os diferentes tipos de ambiguidade verbal e são apresentados os valores que quantificam a sua cobertura no léxico e num corpus. Para que a questão da ambiguidade possa ser resolvida, e necessário que o lematizador seja aplicado expressões verbais que ocorrem em texto corrido e não apenas a uma expressão verbal isolada. No entanto, há que saber quais são as formas verbais presentes no texto que se pretende analisar. É então que são indicadas as ferramentas que são aplicadas ao texto antes que este chegue ao lematizador verbal. São explicadas as etiquetas morfo-sintácticas que identificam formas verbais, sendo indicado as restrições que devem ser impostas a nível de lematização e traçamento dessa forma, e o formato com que elas são apresentadas para o lematizador assim como o esperado formato de saáda. Por fim, é explicada a forma como os clíticos se encontram assinalados, e a maneira como essa informação é tratada por forma a que possam ser aplicadas restrições aos resultados a obter. De seguida são descritos os algoritmos alternativos, implementados para a tarefa de desambiguação do traço de flexão verbal. É descrito o funcionamento de cada algoritmo e a forma como foram implementados. É apresentado uma análise dos resultados obtidos com os diferentes algoritmos. Após ter sido feito uma análise comparativa para a tarefa de desambiguação de traços de flexão, é feita análise similar para os lemas verbais, onde são indicadas as alterações que os algoritmos sofreram por forma a suportar a tarefa de lematização. Finalmente, são comparados os resultados das duas tarefas (lematização e traçamento) entre os diferentes algoritmos. Os resultados da avaliação do algoritmo com melhor desempenho são então comparados com trabalhos similares com resultados publicados, donde se conclui que, com o presente trabalho se conseguiu notoriamente fazer avançar o estado da arte neste domínio. Por fim, é feita uma análise dos erros mais frequentes cometidos pela ferramenta. Finalmente, é apresentado um resumo das ferramentas resultantes do trabalho realizado (Cap. 6). É também resumido a problemática da ambiguidade verbal, bem como os resultados de cada uma das diferentes abordagens para resolver o problema. É feito uma comparação resumida com os trabalhos anteriores que são comparáveis, e finalmente são depois apresentadas várias linhas de orientação para trabalho futuro. |
|---|