Document details

Transfer Learning for Automatic Essay Scoring

Author(s): Silveira, Igor Cataneo ; Ribeiro, Eugénio ; Mamede, Nuno ; Baptista, Jorge

Date: 2025

Origin: Linguamática

Subject(s): automatic essay scoring; narrative; Portuguese; correção automática de redação; narrativa; português


Description

 Automatic Essay Scoring is a field that has been receiving a lot of attention in Portuguese. Among the available datasets, one stands out: a corpus of narrative essays written by students from 5th to 9th grade in Brazil. These essays were evaluated according to four traits: formal register, thematic coherence, narrative rhetorical structure, and textual cohesion. This~work explores the development of a system based on knowledge from another dataset (developed from texts produced for the Brazilian national entrance exam, ENEM) and from other tasks (textual complexity and legibility analysis). This developed system combines neural models, handcrafted features calculated by textual analysis software, and feature selection, through a Two Stage Learning algorithm. With this system, the state-of-the-art performance was enhanced by 9% for the first trait, 5.5% for the third, and 8.9% for the fourth one.

A tarefa de Correção Automática de Redação tem despertado crescente interesse na área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataset (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de features em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado-da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.

A tarefa de Correção Automática de Redação tem despertado crescente interesse na área de processamento de texto em português. Entre os conjuntos de dados disponíveis, destaca-se um corpus de redações narrativas produzidas por alunos do 5º ao 9º ano do ensino fundamental no Brasil. Essas redações são avaliadas segundo quatro competências: registro formal, coerência temática, estrutura retórica narrativa e coesão textual. Este trabalho explora a criação de um sistema baseado em conhecimentos derivados de outro dataset (desenvolvido com base em textos produzidos para o ENEM) e de outras tarefas (cálculo de complexidade textual e análise de legibilidade). O sistema desenvolvido combina modelos neurais, características (features) curadas calculadas por programas de análise textual e seleção de features em um modelo de Aprendizado em Dois Estágios. Com isso, foi possível elevar a performance em relação ao estado-da-arte, nomeadamente, em 9% para a primeira competência, 5,5% para a terceira e 8,9% para a quarta.

Document Type Journal article
Language Portuguese
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents