Document details

Directivas e categorias para identificação e classificação semântica na coleccção dourada do HAREM

Author(s): Cardoso, Nuno ; Santos, Diana

Date: 2006

Persistent ID: http://hdl.handle.net/10451/14106

Origin: Repositório da Universidade de Lisboa

Subject(s): avaliação; processamento computacional do português; processamento de linguagem natural, extracção de informação; português; avaliação conjunta; reco


Description

Neste relatório técnico apresentam-se as directivas usadas na compilação da colecção dourada do HAREM, a primeira avaliação conjunta de sistemas de reconhecimento de entidades mencionadas (REM) em português, organizada pela Linguateca. A colecção dourada (dois conjuntos, de 129 e 128 textos de vários géneros literários) foi manualmente anotada com a identificação de nomes próprios e a sua classificação semântica, com base num leque de categorias derivado quer do consenso inicial entre os participantes no HAREM quer do estudo aturado subsequente das realidades nos textos que analisávamos. Cedo se tornou claro que a documentação das categorias empregues, a sua delimitação o mais precisa possível e a criação de critérios claros para anotação de mais texto em português seriam uma das contribuições mais importantes deste esforço de anotação. O presente documento inclui pois uma relação extensa dos vários casos encontrados em texto em português e de quais os critérios usados na sua anotação, critérios esses que foram usados na criação da colecção dourada, com base na qual os sistemas participantes foram avaliados no HAREM. O resultado desse processo de reflexão e explicitação das opções tomadas tem no entanto interesse para além da própria avaliação de sistemas de reconhecimento de entidades mencionadas, por ser um início de descrição semântica do português baseada em corpora. Visto que o próprio recurso, a colecção dourada, se encontra disponível, o conhecimento das directivas precisas usadas para o criar permite a futuros investigadores levarem a cabo estudos quantitativos e exploratórios do texto usado, assim como alterações sistemáticas das suas opções se com elas discordarem. O relatório começa por relatar como foi feita a delimitação das entidades a classificar, seguindo-se uma descrição detalhada de quais os critérios para distinguir entre os vários tipos das dez categorias utilizadas no HAREM (PESSOA, ORGANIZA?ÌO, TEMPO, ACONTECIMENTO, COISA, LOCAL, OBRA, ABSTRAC?ÌO, VALOR e VARIADO), com copiosos exemplos e descrição de casos problemáticos ou simplesmente potencialmente complexos

Document Type Report
Language Portuguese
Contributor(s) Repositório da Universidade de Lisboa
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents