Author(s):
Rodríguez Rey, Sandra ; Garcia, Marcos
Date: 2025
Origin: Linguamática
Subject(s): readability corpus; automatic readability assessment; text classification; Galician; fine-tuning; adult learning; corpus de lecturabilidade; avaliación automática da lecturabilidade; clasificación de textos; galego; fine-tuning; aprendizaxe para adultos
Description
The automatic readability assessment of texts is a growing field within Natural Language Processing, with significant implications in areas such as language teaching and learning and accessibility. In this context, this paper presents Corlega, the first corpus of Galician texts classified by readability level, consisting of 480 texts aimed at adult readers. The corpus covers 11 categories and 36 subcategories, including a variety of text types, genres and subgenres. The process of selection and compilation of documents, as well as classification, follows the standards of the iRead4Skills project, which develops resources and computational models for Portuguese, Spanish and French. To compile Corlega, this work defines six levels of readability in Galician and proposes a set of linguistic descriptors for each level. Using this taxonomy, we describe the compilation process of the corpus and its current distribution ---across four of the six readability levels---,as well as the main features of this new resource. Additionally, we used the corpus to train and evaluate automatic readability classification tools by fitting monolingual and multilingual Transformer models, and the implementation of hybrid models. The results suggest that, with small training corpora, feature extraction from pre-trained models is an efficient method to achieve competitive results with supervised model fitting. However, combining corpora from different languages enables the fitting of multilingual models with better performance. Both the corpus and the models are available to the scientific community.
A avaliación automática da lecturabilidade textual constitúe un campo en expansión no ámbito do procesamento das linguas naturais, cun impacto relevante en áreas como o ensino e a aprendizaxe de linguas e a accesibilidade. Neste contexto, este artigo presenta Corlega, o primeiro corpus de textos en galego clasificados por niveis de lecturabilidade, composto por 480 documentos dirixidos a persoas adultas. O corpus abrangue 11 categorías e 36 subcategorías con diferentes xéneros textuais, subxéneros e tipos de textos. O proceso de selección e compilación de documentos, así como de clasificación, segue os estándares do proxecto iRead4Skills, que desenvolve recursos e modelos computacionais para o portugués, o español e o francés.Para compilar Corlega, este traballo define seis niveis de lecturabilidade en galego, para os que propón un conxunto de descritores lingüísticos. Con base nesta taxonomía, describimos o proceso de compilación do corpus e a súa distribución actual ---en catro dos seis niveis de lecturabilidade---, así como as principais características deste novo recurso. Adicionalmente, empregamos o corpus para adestrar e avaliar ferramentas de clasificación automática da lecturabilidade, mediante o axuste de modelos Transformers monolingües e multilingües e a implementación de modelos híbridos. Os resultados suxiren que, con corpus de adestramento de tamaño reducido, a extracción de características de modelos preadestrados permite obter resultados competitivos co axuste supervisado dos modelos. Con todo, a combinación de corpus de diferentes linguas permite axustar modelos multilingües con mellor desempeño. Tanto o corpus como os modelos están dispoñibles para a comunidade científica.
A avaliación automática da lecturabilidade textual constitúe un campo en expansión no ámbito do procesamento das linguas naturais, cun impacto relevante en áreas como o ensino e a aprendizaxe de linguas e a accesibilidade. Neste contexto, este artigo presenta Corlega, o primeiro corpus de textos en galego clasificados por niveis de lecturabilidade, composto por 480 documentos dirixidos a persoas adultas. O corpus abrangue 11 categorías e 36 subcategorías con diferentes xéneros textuais, subxéneros e tipos de textos. O proceso de selección e compilación de documentos, así como de clasificación, segue os estándares do proxecto iRead4Skills, que desenvolve recursos e modelos computacionais para o portugués, o español e o francés.Para compilar Corlega, este traballo define seis niveis de lecturabilidade en galego, para os que propón un conxunto de descritores lingüísticos. Con base nesta taxonomía, describimos o proceso de compilación do corpus e a súa distribución actual ---en catro dos seis niveis de lecturabilidade---, así como as principais características deste novo recurso. Adicionalmente, empregamos o corpus para adestrar e avaliar ferramentas de clasificación automática da lecturabilidade, mediante o axuste de modelos Transformers monolingües e multilingües e a implementación de modelos híbridos. Os resultados suxiren que, con corpus de adestramento de tamaño reducido, a extracción de características de modelos preadestrados permite obter resultados competitivos co axuste supervisado dos modelos. Con todo, a combinación de corpus de diferentes linguas permite axustar modelos multilingües con mellor desempeño. Tanto o corpus como os modelos están dispoñibles para a comunidade científica.