The automatic readability assessment of texts is a growing field within Natural Language Processing, with significant implications in areas such as language teaching and learning and accessibility. In this context, this paper presents Corlega, the first corpus of Galician texts classified by readability level, consisting of 480 texts aimed at adult readers. The corpus covers 11 categories and 36 subcategories, ...
This study presents a systematic exploration of strategies for pretraining generative Large Language Models (LLMs) within the Galician-Portuguese diasystem, by focusing on two underrepresented varieties of this diasystem, namely European Portuguese and Galician. We investigate the impact of combining versus separating linguistic varieties during continued pretraining, the trade-offs between large-scale noisy da...
The automatic readability assessment of texts is a growing field within Natural Language Processing, with significant implications in areas such as language teaching and learning and accessibility. In this context, this paper presents Corlega, the first corpus of Galician texts classified by readability level, consisting of 480 texts aimed at adult readers. The corpus covers 11 categories and 36 subcategories, ...
Este artigo apresenta o método de construção duma ferramenta para a anotação de entidades geográficas mencionadas em textos medievais. A nova ferramenta foi desenvolvida a partir dos módulos de língua contemporânea do LinguaKit, pacote multilingue de ferramentas de PLN. Uma coleção de corpora anotados manualmente serviu de recurso para elaborar uma lista de topónimos medievais (gazetteers) e observar padrões pa...
Este artigo apresenta LinguaKit, uma suite multilingue de ferramentas de análise, extração, anotação e correção linguísticas. LinguaKit permite realizar tarefas tão diversas como a lematização, a etiquetagem morfossintática ou a análise sintática (entre outras), incluindo também aplicações para a análise de sentimentos (ou minaria de opiniões), a extração de termos multipalavra, ou a anotação concetual e ligaçã...
In this paper we describe a collection of publicly available data sets for Portuguese that are suitable for the evaluation of distributional semantics models in lexical similarity tasks and in conceptual categorization tasks. These data sets were adapted from English gold-standard test sets, allowing any Portuguese distributional semantics model to be evaluated and also to be compared to mainstream results that...
A realização habitual do segmento lateral implosivo Português Europeu apresenta uma segunda articulação (vocálica) na região velar: malta – ma[ɫ]ta. Outras variedades, nomeadamente o Português do Brasil, mostram produções vocalizadas: malta - ma[w]ta. Estas realizações, presentes em muitos outros sistemas linguísticos, podem interpretar-se como uma etapa de um processo de nuclearização, com base tanto em mudanç...
A realização habitual do segmento lateral implosivo Português Europeu apresenta uma segunda articulação (vocálica) na região velar: malta – ma[ɫ]ta. Outras variedades, nomeadamente o Português do Brasil, mostram produções vocalizadas: malta - ma[w]ta. Estas realizações, presentes em muitos outros sistemas linguísticos, podem interpretar-se como uma etapa de um processo de nuclearização, com base tanto em mudanç...