11 documents found, page 1 of 2

Sort by Issue Date

Automatic text readability classification: resources and models for Galician

Rodríguez Rey, Sandra; Garcia, Marcos

The automatic readability assessment of texts is a growing field within Natural Language Processing, with significant implications in areas such as language teaching and learning and accessibility. In this context, this paper presents Corlega, the first corpus of Galician texts classified by readability level, consisting of 480 texts aimed at adult readers. The corpus covers 11 categories and 36 subcategories, ...

Date: 2025   |   Origin: Linguamática

Enhancing Large Language Models for Underrepresented Varieties: Pretraining Str...

Rodríguez, Pablo; Gamallo, Pablo; Santos, Daniel; Sotelo, Susana; Paniagua, Silvia; Pichel, José; Salgueiro, Pedro; Nogueira, Vítor; Quaresma, Paulo

This study presents a systematic exploration of strategies for pretraining generative Large Language Models (LLMs) within the Galician-Portuguese diasystem, by focusing on two underrepresented varieties of this diasystem, namely European Portuguese and Galician. We investigate the impact of combining versus separating linguistic varieties during continued pretraining, the trade-offs between large-scale noisy da...


Automatic text readability classification: resources and models for Galician

Rodríguez Rey, Sandra; Garcia, Marcos

The automatic readability assessment of texts is a growing field within Natural Language Processing, with significant implications in areas such as language teaching and learning and accessibility. In this context, this paper presents Corlega, the first corpus of Galician texts classified by readability level, consisting of 480 texts aimed at adult readers. The corpus covers 11 categories and 36 subcategories, ...

Date: 2025   |   Origin: Linguamática

The role of the soil fauna in the litter decomposition process in primary fores...

Beck, Ludwig; Martius, Christopher; Morais, José Wellington de; Oliveira, Elisiana Pereira de; Römbke, Jörge; Gasparotto, L; Förster, B

Date: 2020   |   Origin: Oasisbr

Soil fauna and litter decomposition in primary and secondary forests and in a p...

Martius, Christopher; Franklin, Elizabeth Nazaré; Garcia, Marcos; Harada, Ana; Luizão, Flávio Jesus; Luizão, Regina; Morais, José Wellington de

Date: 2020   |   Origin: Oasisbr

Uma utilidade para o reconhecimento de topónimos em documentos medievais

Canosa, Xavier; Gamallo, Pablo; Varela, Xavier; Taboada, José Ángel; Martínez Lema, Paulo; Garcia, Marcos

Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões pa...

Date: 2019   |   Origin: Linguamática

LinguaKit: uma ferramenta multilingue para a análise linguística e a extração d...

Gamallo, Pablo; Garcia, Marcos

Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de análise, extração, anotação e correção linguísticas. LinguaKit permite realizar tarefas tão diversas como a lematização, a etiquetagem morfossintática ou a análise sintática (entre outras), incluindo também aplicações para a análise de sentimentos (ou minaria de opiniões), a extração de termos multipalavra, ou a anotação concetual e ligaçã...

Date: 2017   |   Origin: Linguamática

LX-LR4DistSemEval: a collection of language resources for the evaluation of dis...

Querido, Andreia; Carvalho, Rita; Rodrigues, João; Garcia, Marcos; Silva, João; Correia, Catarina; Rendeiro, Nuno; Valadas Pereira, Rita; Campos, Marisa

In this paper we describe a collection of publicly available data sets for Portuguese that are suitable for the evaluation of distributional semantics models in lexical similarity tasks and in conceptual categorization tasks. These data sets were adapted from English gold-standard test sets, allowing any Portuguese distributional semantics model to be evaluated and also to be compared to mainstream results that...


O Segmento Lateral /l/ em Rima Interna. Sonoridade e Nuclearização em Português...

Garcia, Marcos

A realização habitual do segmento lateral implosivo Português Europeu apresenta uma segunda articulação (vocálica) na região velar: malta – ma[ɫ]ta. Outras variedades, nomeadamente o Português do Brasil, mostram produções vocalizadas: malta - ma[w]ta. Estas realizações, presentes em muitos outros sistemas linguísticos, podem interpretar-se como uma etapa de um processo de nuclearização, com base tanto em mudanç...


O Segmento Lateral /l/ em Rima Interna. Sonoridade e Nuclearização em Português...

Garcia, Marcos

A realização habitual do segmento lateral implosivo Português Europeu apresenta uma segunda articulação (vocálica) na região velar: malta – ma[ɫ]ta. Outras variedades, nomeadamente o Português do Brasil, mostram produções vocalizadas: malta - ma[w]ta. Estas realizações, presentes em muitos outros sistemas linguísticos, podem interpretar-se como uma etapa de um processo de nuclearização, com base tanto em mudanç...


11 Results

Queried text

Refine Results

Author





















Date






Document Type


Access rights


Resource






Subject