Publicação
Shallow processing of portuguese: from sentence chunking to nominal lemmatization
| Resumo: | Esta dissertação propõe um conjunto de procedimentos para o processamento computacional do Português. São cobertas cinco tarefas: Segmentação de Frases (Sentence Segmentation), Segmentação de Palavras (Tokenization), AnotaçãoMorfossintáctica (Part-of-Speech Tagging), Traçamento Nominal (Nominal Featurization) e Lematização Nominal (Nominal Lemmatization). Estas correspondem a alguns dos passos iniciais que produzem informação linguística, tal como categorias morfossintácticas ou lemas, informação esta que é importante para o processamento subsequente (e.g. análise sintáctica e semântica). Sigo uma abordagem baseada em processamento superficial (shallow processing), segundo a qual a informação linguística é associada ao texto com base em informação local (i.e. usando uma palavra ou, no máximo, uma janela muito limitada de contexto que inclui apenas algumas palavras). Começo por identificar e descrever as dificuldades encontradas em cada tarefa, com especial ênfase para aquelas que são específicas do Português. Após uma panorâmica das abordagens e ferramentas já existentes, descrevo soluções para os problemas que foram apontados previamente. São tambémcobertas as implementações destas soluções que, após avaliação, revelam quer um desempenho ao nível do estado da arte quer, em alguns casos, um avanço no estado da arte. O resultado desta dissertação é então tripartido: Uma descrição de alguns problemas chave encontrados no processamento superficial do Português, um conjunto de algoritmos e as respectivas implementações para a resolução desses problemas, juntamente com a sua avaliação. |
|---|---|
| Autores principais: | Silva, João Ricardo Martins Ferreira da |
| Assunto: | Segmentação de lexemas Processamento superficial Anotação morfossintáctica Análise morfológica Processamento de linguagem natural Lematização Segmentação de frases Teses de mestrado - 2007 |
| Ano: | 2007 |
| País: | Portugal |
| Tipo de documento: | dissertação de mestrado |
| Tipo de acesso: | acesso restrito |
| Instituição associada: | Universidade de Lisboa |
| Idioma: | inglês |
| Origem: | Repositório da Universidade de Lisboa |
Registos relacionados
school Verbal lemmatization and featurization of Portuguese with ambiguity resolution in context
por: Nunes, Filipe Varela
Publicado em: (2007)
por: Nunes, Filipe Varela
Publicado em: (2007)
school Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
por: Nunes, Filipe Varela
Publicado em: (2007)
por: Nunes, Filipe Varela
Publicado em: (2007)
school Shallow Processing of Portuguese: From Sentence Chunking to Nominal Lemmatization
por: Silva, João
Publicado em: (2007)
por: Silva, João
Publicado em: (2007)
assignment Relatório de acompanhamento do projecto RHEUMUS (sistema de análise de imagens de ecografia para reumatologia): QREN - Projecto Nº 38505
por: Ferreira, Manuel João Oliveira
Publicado em: (2013)
por: Ferreira, Manuel João Oliveira
Publicado em: (2013)
article Processamento e interpretação de sujeitos nulos e plenos em Português Europeu e em Português do Brasil
por: Luegi, Paula
Publicado em: (2014)
por: Luegi, Paula
Publicado em: (2014)
school A monitorização no processamento de frases : evidências comportamentais e eletrofisiológicas
por: Soares, Sara Alexandre da Palma, 1991-
Publicado em: (2015)
por: Soares, Sara Alexandre da Palma, 1991-
Publicado em: (2015)
article Linguateca: um centro de recursos distribuído para o processamento computacional da língua portuguesa
por: Santos, Diana
Publicado em: (2004)
por: Santos, Diana
Publicado em: (2004)
school Developing reliability metrics and validation tools for datasets with deep linguistic information
por: Castro, Sérgio Ricardo de, 1981-
Publicado em: (2011)
por: Castro, Sérgio Ricardo de, 1981-
Publicado em: (2011)
school Infra-estrutura de um serviço online de resposta-a-perguntas com base na web portuguesa
por: Rodrigues, Lino Miguel Silva
Publicado em: (2007)
por: Rodrigues, Lino Miguel Silva
Publicado em: (2007)
school Automatic task discovery : towards full automation of the machine learning lifecycle
por: Gehmayr, Jonathan
Publicado em: (2024)
por: Gehmayr, Jonathan
Publicado em: (2024)
school Avoiding question-answering congestion on health services using chatbots
por: Pereira, Henrique Manuel Palmeira
Publicado em: (2022)
por: Pereira, Henrique Manuel Palmeira
Publicado em: (2022)
school Anotação automática de informação clínica
por: Caçador, Ricardo Filipe Sousa
Publicado em: (2023)
por: Caçador, Ricardo Filipe Sousa
Publicado em: (2023)
assignment Gramática e Processamento da Linguagem Natural: Fundamentos
por: Branco, António Horta
Publicado em: (2008)
por: Branco, António Horta
Publicado em: (2008)
school Anotação automática de textos para análise e identificação de conteúdo
por: Santos, Tiago Miguel Fraga
Publicado em: (2022)
por: Santos, Tiago Miguel Fraga
Publicado em: (2022)
assignment Directivas e categorias para identificação e classificação semântica na coleccção dourada do HAREM
por: Cardoso, Nuno
Publicado em: (2006)
por: Cardoso, Nuno
Publicado em: (2006)
assignment Directivas para identificação e classificação morfológica na coleccção dourada do HAREM
por: Cardoso, Nuno
Publicado em: (2006)
por: Cardoso, Nuno
Publicado em: (2006)
assignment Avaliação no HAREM: métodos e medidas
por: Santos, Diana
Publicado em: (2006)
por: Santos, Diana
Publicado em: (2006)
school INFRAESTRUTURA DE UM SERVIÇO ONLINE DE RESPOSTAAPERGUNTAS COM BASE NA WEB PORTUGUESA
por: Rodrigues, Lino Miguel Silva
Publicado em: (2007)
por: Rodrigues, Lino Miguel Silva
Publicado em: (2007)
school Enhancing extractive summarization with automatic post-processing
por: Silveira, Sara Maria da Silveira Botelho da, 1982-
Publicado em: (2015)
por: Silveira, Sara Maria da Silveira Botelho da, 1982-
Publicado em: (2015)
school Simulating stresses and strains in solid mechanics directly from images using convolutional neural networks
por: Vieira, Beatriz Susana
Publicado em: (2025)
por: Vieira, Beatriz Susana
Publicado em: (2025)
category Avaliação e comparação de competências auditivas e cognitivo-linguísticas em crianças de idade escolar
por: Martins, Inês
Publicado em: (2017)
por: Martins, Inês
Publicado em: (2017)
school Desambiguação Automática da Flexão Verbal em Contexto
por: Martins, Pedro Lopes Mendes
Publicado em: (2007)
por: Martins, Pedro Lopes Mendes
Publicado em: (2007)
school Modelling semantic relations with distributitional semantics and deep learning : question answering, entailment recognition and paraphrase detection
por: Maraev, Vladislav
Publicado em: (2017)
por: Maraev, Vladislav
Publicado em: (2017)
school Desambiguação Automática da Flexão Verbal em Contexto
por: Martins, Pedro Lopes Mendes
Publicado em: (2008)
por: Martins, Pedro Lopes Mendes
Publicado em: (2008)
article Error annotation in the COPLE2 corpus
por: del Río, Iria
Publicado em: (2018)
por: del Río, Iria
Publicado em: (2018)
school Chatbot for VILT’S helpdesk team
por: Ribeiro, Diogo Pinto
Publicado em: (2022)
por: Ribeiro, Diogo Pinto
Publicado em: (2022)
category ISBE Newsletter Saúde Digital nº 281: Revisão sistemática de estudos sobre terapêuticas digitais
por: Rachadell, Juan
Publicado em: (2024)
por: Rachadell, Juan
Publicado em: (2024)
school Tradução automática e linguagens controladas: contributos para um português controlado
por: Gomes, Ana Lucrécia Madeira
Publicado em: (2010)
por: Gomes, Ana Lucrécia Madeira
Publicado em: (2010)
school Processamento e análise de imagem na cintigrafia das glândulas salivares
por: Lima, Débora de Neto e
Publicado em: (2019)
por: Lima, Débora de Neto e
Publicado em: (2019)
article Analisando os comportamentos oculares durante a leitura
por: Luegi, Paula
Publicado em: (2009)
por: Luegi, Paula
Publicado em: (2009)
school Automatic extraction of definitions
por: Gaudio, Rosa Del, 1979-
Publicado em: (2014)
por: Gaudio, Rosa Del, 1979-
Publicado em: (2014)
school Construção de método de processamento para análise automática e semiautomática de imagens de cintigrafia de ventilação perfusão pulmonar
por: Linares, Inês Micaela de Jesus
Publicado em: (2017)
por: Linares, Inês Micaela de Jesus
Publicado em: (2017)
article Using eye-tracking to detect reading difficulties
por: Luegi, Paula
Publicado em: (2011)
por: Luegi, Paula
Publicado em: (2011)
school Emotional state detection through text analysis
por: Martins, Ricardo Alexandre Gonçalves Carotta
Publicado em: (2022)
por: Martins, Ricardo Alexandre Gonçalves Carotta
Publicado em: (2022)
school Sumarização de vídeos de jogos de futebol baseada em características audiovisuais e biométricas
por: Lourenço, David André da Silva
Publicado em: (2019)
por: Lourenço, David André da Silva
Publicado em: (2019)
category Questionário dos Domínios do Processamento Auditivo (QDPA): Estudo piloto numa turma do 4º ano do ensino básico
por: Martins, Inês
Publicado em: (2019)
por: Martins, Inês
Publicado em: (2019)
book Cartografia de uso do solo à escala regional com recurso a análise orientada a objecto e segmentação multiresolução
por: Encarnação, Sara
Publicado em: (2004)
por: Encarnação, Sara
Publicado em: (2004)
school Recognizing Emotions in Short Texts
por: Vieira, Iolanda Mafalda Dias Pastor
Publicado em: (2022)
por: Vieira, Iolanda Mafalda Dias Pastor
Publicado em: (2022)
school Exploring Causal Attention Models in Transformers for Large Language Models
por: Terroa, João Filipe Gonçalves Vieira
Publicado em: (2024)
por: Terroa, João Filipe Gonçalves Vieira
Publicado em: (2024)
school Processing temporal information in unstructured documents
por: Costa, Francisco Nuno Quintiliano Mendonça Carapeto, 1980-
Publicado em: (2013)
por: Costa, Francisco Nuno Quintiliano Mendonça Carapeto, 1980-
Publicado em: (2013)
Registos relacionados
-
school Verbal lemmatization and featurization of Portuguese with ambiguity resolution in context
por: Nunes, Filipe Varela
Publicado em: (2007) -
school Verbal lemmatization and featurization of portuguese with ambiguity resolution in context
por: Nunes, Filipe Varela
Publicado em: (2007) -
school Shallow Processing of Portuguese: From Sentence Chunking to Nominal Lemmatization
por: Silva, João
Publicado em: (2007) -
assignment Relatório de acompanhamento do projecto RHEUMUS (sistema de análise de imagens de ecografia para reumatologia): QREN - Projecto Nº 38505
por: Ferreira, Manuel João Oliveira
Publicado em: (2013) -
article Processamento e interpretação de sujeitos nulos e plenos em Português Europeu e em Português do Brasil
por: Luegi, Paula
Publicado em: (2014)