Document details

Exploiting Corpora for Extracting and Describing Specialized Lexicon: Towards a Solid and Sustained Methodology

Author(s): Barbero, Chiara ; Amaro, Raquel

Date: 2020

Origin: Oasisbr

Subject(s): Specialized Lexicon Extraction; Methodology; Corpora; Concordances; Collocations; extração de léxico de especialidade; metodologia; corpora; concordâncias; colocações


Description

The use of corpora for specialized lexicon extraction is a common and consensual method for building lexical resources. However, the methodologies used to achieve this are not openly discussed, rendering the comparison and determination of robust approaches difficult. In order to fill in this gap, in this paper we present and discuss a detailed methodology for extracting specialized lexicon from corpus, combining linguistic and statistical approaches. The proposed method uses specialized and monitor corpora and comprises i) frequency information analyses; ii) concordances and collocations extraction; and iii) textual organization information; accounting for core single and multiword expressions and salient semantic relations extraction. This way, our goal is the determination of a solid and accurate list of potential specialized lexical units that will allow for a swifter final validation and for maximizing the informational value of the interaction with the experts.

A exploração de corpora para a extração de léxico de especialidade é um método consensual e comum na construção de recursos lexicais. No entanto, as metodologias empregadas não são explicitamente discutidas, dificultando a comparação e a determinação de abordagens robustas. Para preencher essa lacuna, neste artigo apresentamos e discutimos uma metodologia detalhada para extração de léxico de especialidade a partir de corpora, conjugando abordagens linguísticas e estatísticas. O método proposto prevê tanto o uso de corpora de especialidade como de corpora monitores e inclui: i) análise de dados de frequência; ii) extração de concordâncias e colocações; iii) extração de informação de ordem textual, permitindo a extração de unidades lexicais atómicas e multipalavra e de relações semânticas relevantes. Desse modo, o objetivo da metodologia é a determinação de listas de potenciais unidades lexicais de especialidade e de informações relevantes para a sua descrição que permitam uma validação final rápida e eficiente, maximizando o valor informacional da interação com os especialistas.

Document Type Journal article
Language Portuguese
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents