Publicação

Shallow processing of portuguese: from sentence chunking to nominal lemmatization

Detalhes bibliográficos
Resumo:	Esta dissertação propõe um conjunto de procedimentos para o processamento computacional do Português. São cobertas cinco tarefas: Segmentação de Frases (Sentence Segmentation), Segmentação de Palavras (Tokenization), AnotaçãoMorfossintáctica (Part-of-Speech Tagging), Traçamento Nominal (Nominal Featurization) e Lematização Nominal (Nominal Lemmatization). Estas correspondem a alguns dos passos iniciais que produzem informação linguística, tal como categorias morfossintácticas ou lemas, informação esta que é importante para o processamento subsequente (e.g. análise sintáctica e semântica). Sigo uma abordagem baseada em processamento superficial (shallow processing), segundo a qual a informação linguística é associada ao texto com base em informação local (i.e. usando uma palavra ou, no máximo, uma janela muito limitada de contexto que inclui apenas algumas palavras). Começo por identificar e descrever as dificuldades encontradas em cada tarefa, com especial ênfase para aquelas que são específicas do Português. Após uma panorâmica das abordagens e ferramentas já existentes, descrevo soluções para os problemas que foram apontados previamente. São tambémcobertas as implementações destas soluções que, após avaliação, revelam quer um desempenho ao nível do estado da arte quer, em alguns casos, um avanço no estado da arte. O resultado desta dissertação é então tripartido: Uma descrição de alguns problemas chave encontrados no processamento superficial do Português, um conjunto de algoritmos e as respectivas implementações para a resolução desses problemas, juntamente com a sua avaliação.
Autores principais:	Silva, João Ricardo Martins Ferreira da
Assunto:	Segmentação de lexemas Processamento superficial Anotação morfossintáctica Análise morfológica Processamento de linguagem natural Lematização Segmentação de frases Teses de mestrado - 2007
Ano:	2007
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso restrito
Instituição associada:	Universidade de Lisboa
Idioma:	inglês
Origem:	Repositório da Universidade de Lisboa

Descrição
Resumo:	Esta dissertação propõe um conjunto de procedimentos para o processamento computacional do Português. São cobertas cinco tarefas: Segmentação de Frases (Sentence Segmentation), Segmentação de Palavras (Tokenization), AnotaçãoMorfossintáctica (Part-of-Speech Tagging), Traçamento Nominal (Nominal Featurization) e Lematização Nominal (Nominal Lemmatization). Estas correspondem a alguns dos passos iniciais que produzem informação linguística, tal como categorias morfossintácticas ou lemas, informação esta que é importante para o processamento subsequente (e.g. análise sintáctica e semântica). Sigo uma abordagem baseada em processamento superficial (shallow processing), segundo a qual a informação linguística é associada ao texto com base em informação local (i.e. usando uma palavra ou, no máximo, uma janela muito limitada de contexto que inclui apenas algumas palavras). Começo por identificar e descrever as dificuldades encontradas em cada tarefa, com especial ênfase para aquelas que são específicas do Português. Após uma panorâmica das abordagens e ferramentas já existentes, descrevo soluções para os problemas que foram apontados previamente. São tambémcobertas as implementações destas soluções que, após avaliação, revelam quer um desempenho ao nível do estado da arte quer, em alguns casos, um avanço no estado da arte. O resultado desta dissertação é então tripartido: Uma descrição de alguns problemas chave encontrados no processamento superficial do Português, um conjunto de algoritmos e as respectivas implementações para a resolução desses problemas, juntamente com a sua avaliação.