Detalhes do Documento

LinguaKit: uma ferramenta multilingue para a análise linguística e a extração de informação

Autor(es): Gamallo, Pablo ; Garcia, Marcos

Data: 2017

Origem: Linguamática

Assunto(s): Processamento da Linguagem Natural; Extração de Informação; Tecnologia Linguística


Descrição

Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de análise, extração, anotação e correção linguísticas. LinguaKit permite realizar tarefas tão diversas como a lematização, a etiquetagem morfossintática ou a análise sintática (entre outras), incluindo também aplicações para a análise de sentimentos (ou minaria de opiniões), a extração de termos multipalavra, ou a anotação concetual e ligação a recursos enciclopédicos tais como a DBpedia. A maior parte dos módulos funcionam para quatro variedades linguísticas: português, espanhol, inglês e galego. A linguagem de programação de LinguaKit é Perl, e o código está disponível sob a licença livre GPLv3.

Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de análise, extração, anotação e correção linguísticas. LinguaKit permite realizar tarefas tão diversas como a lematização, a etiquetagem morfossintática ou a análise sintática (entre outras), incluindo também aplicações para a análise de sentimentos (ou minaria de opiniões), a extração de termos multipalavra, ou a anotação concetual e ligação a recursos enciclopédicos tais como a DBpedia. A maior parte dos módulos funcionam para quatro variedades linguísticas: português, espanhol, inglês e galego. A linguagem de programação de LinguaKit é Perl, e o código está disponível sob a licença livre GPLv3.

This paper presents LinguaKit, a multilingual suite of tools for analysis, extraction, annotation and linguistic correction. LinguaKit allows the user to perform different tasks such as lemmatization, PoS-tagging or syntactic parsing (among others), including applications for sentiment analysis (or opinion mining), extraction of multiword expressions or conceptual annotation and entity linking to DBpedia. Most part of the developed modules work in four linguistic varieties: Portuguese, Spanish, English, and Galician. The system is programmed in Perl, and it is freely available under a GPLv3 license.

Tipo de Documento Artigo científico
Idioma Português
facebook logo  linkedin logo  twitter logo 
mendeley logo

Documentos Relacionados