RCAAP - Repositórios Científicos de Acesso Aberto de Portugal

Automatic text readability classification: resources and models for Galician

Rodríguez Rey, Sandra; Garcia, Marcos

The automatic readability assessment of texts is a growing field within Natural Language Processing, with significant implications in areas such as language teaching and learning and accessibility. In this context, this paper presents Corlega, the first corpus of Galician texts classified by readability level, consisting of 480 texts aimed at adult readers. The corpus covers 11 categories and 36 subcategories, ...

Date: 2025 | Origin: Linguamática

More info.

Enhancing Large Language Models for Underrepresented Varieties: Pretraining Str...

Rodríguez, Pablo; Gamallo, Pablo; Santos, Daniel; Sotelo, Susana; Paniagua, Silvia; Pichel, José; Salgueiro, Pedro; Nogueira, Vítor; Quaresma, Paulo

This study presents a systematic exploration of strategies for pretraining generative Large Language Models (LLMs) within the Galician-Portuguese diasystem, by focusing on two underrepresented varieties of this diasystem, namely European Portuguese and Galician. We investigate the impact of combining versus separating linguistic varieties during continued pretraining, the trade-offs between large-scale noisy da...

Date: 2025 | Origin: Repositório Científico da Universidade de Évora

More info.

Automatic text readability classification: resources and models for Galician

Rodríguez Rey, Sandra; Garcia, Marcos

The automatic readability assessment of texts is a growing field within Natural Language Processing, with significant implications in areas such as language teaching and learning and accessibility. In this context, this paper presents Corlega, the first corpus of Galician texts classified by readability level, consisting of 480 texts aimed at adult readers. The corpus covers 11 categories and 36 subcategories, ...

Date: 2025 | Origin: Linguamática

More info.

The role of the soil fauna in the litter decomposition process in primary fores...

Beck, Ludwig; Martius, Christopher; Morais, José Wellington de; Oliveira, Elisiana Pereira de; Römbke, Jörge; Gasparotto, L; Förster, B

Date: 2020 | Origin: Oasisbr

More info.

Soil fauna and litter decomposition in primary and secondary forests and in a p...

Martius, Christopher; Franklin, Elizabeth Nazaré; Garcia, Marcos; Harada, Ana; Luizão, Flávio Jesus; Luizão, Regina; Morais, José Wellington de

Date: 2020 | Origin: Oasisbr

More info.

Uma utilidade para o reconhecimento de topónimos em documentos medievais

Canosa, Xavier; Gamallo, Pablo; Varela, Xavier; Taboada, José Ángel; Martínez Lema, Paulo; Garcia, Marcos

Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões pa...

Date: 2019 | Origin: Linguamática

More info.

LinguaKit: uma ferramenta multilingue para a análise linguística e a extração d...

Gamallo, Pablo; Garcia, Marcos

Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de análise, extração, anotação e correção linguísticas. LinguaKit permite realizar tarefas tão diversas como a lematização, a etiquetagem morfossintática ou a análise sintática (entre outras), incluindo também aplicações para a análise de sentimentos (ou minaria de opiniões), a extração de termos multipalavra, ou a anotação concetual e ligaçã...

Date: 2017 | Origin: Linguamática

More info.

LX-LR4DistSemEval: a collection of language resources for the evaluation of dis...

Querido, Andreia; Carvalho, Rita; Rodrigues, João; Garcia, Marcos; Silva, João; Correia, Catarina; Rendeiro, Nuno; Valadas Pereira, Rita; Campos, Marisa

In this paper we describe a collection of publicly available data sets for Portuguese that are suitable for the evaluation of distributional semantics models in lexical similarity tasks and in conceptual categorization tasks. These data sets were adapted from English gold-standard test sets, allowing any Portuguese distributional semantics model to be evaluated and also to be compared to mainstream results that...

Date: 2017 | Origin: Revista da Associação Portuguesa de Linguística

More info.

O Segmento Lateral /l/ em Rima Interna. Sonoridade e Nuclearização em Português...

Garcia, Marcos

A realização habitual do segmento lateral implosivo Português Europeu apresenta uma segunda articulação (vocálica) na região velar: malta – ma[ɫ]ta. Outras variedades, nomeadamente o Português do Brasil, mostram produções vocalizadas: malta - ma[w]ta. Estas realizações, presentes em muitos outros sistemas linguísticos, podem interpretar-se como uma etapa de um processo de nuclearização, com base tanto em mudanç...

Date: 2017 | Origin: Linguística: Revista de Estudos Linguísticos da Universidade do Porto

More info.

O Segmento Lateral /l/ em Rima Interna. Sonoridade e Nuclearização em Português...

Garcia, Marcos

A realização habitual do segmento lateral implosivo Português Europeu apresenta uma segunda articulação (vocálica) na região velar: malta – ma[ɫ]ta. Outras variedades, nomeadamente o Português do Brasil, mostram produções vocalizadas: malta - ma[w]ta. Estas realizações, presentes em muitos outros sistemas linguísticos, podem interpretar-se como uma etapa de um processo de nuclearização, com base tanto em mudanç...

Date: 2017 | Origin: Linguística: Revista de Estudos Linguísticos da Universidade do Porto

More info.

11 documents found, page 1 of 2

Automatic text readability classification: resources and models for Galician

Enhancing Large Language Models for Underrepresented Varieties: Pretraining Str...

Automatic text readability classification: resources and models for Galician

The role of the soil fauna in the litter decomposition process in primary fores...

Soil fauna and litter decomposition in primary and secondary forests and in a p...

Uma utilidade para o reconhecimento de topónimos em documentos medievais

LinguaKit: uma ferramenta multilingue para a análise linguística e a extração d...

LX-LR4DistSemEval: a collection of language resources for the evaluation of dis...

O Segmento Lateral /l/ em Rima Interna. Sonoridade e Nuclearização em Português...

O Segmento Lateral /l/ em Rima Interna. Sonoridade e Nuclearização em Português...

11 Results

Queried text

Refine Results

Author

Date

Document Type

Access rights

Resource

Subject