Author(s):
Vieira, Renata ; Olival, Fernanda ; Cameron, Helena ; Farrica, Fátima ; Santos, Joaquim ; Reyes, Daniel
Date: 2025
Origin: Linguamática
Subject(s): named entities recognition; 18th century; reconhecimento de entidades nomeadas; Século XVIII
Description
This article presents a study based on 18th-century Portuguese texts, focusing on the analysis of named entities to enhance their value for historical research. For that, an annotated corpus was developed using a primary source (the Parish Memories), which was transcribed, revised, and standardised. The distribution of named entities in the source was then analysed to reflect on the variations in the defined categories, which were established according to historians' requirements. The annotated corpus was subsequently employed to develop Named Entity Recognition (NER) models that accommodate the complexity of historical analysis. Several solutions and language models for the NER task were trained and evaluated, where the best models achieve F1 = 0.70. Thus, this work demonstrates the usefulness of named entity recognition in the analysis of historical texts and provides a model with the capabilities to extend annotations to a larger set of texts with the same characteristics.
Este artigo apresenta um estudo baseado em textos portugueses do século XVIII, através da análise de entidades nomeadas, tendo em vista potenciá-las para análise histórica. Para isso foi elaborado um corpus anotado, a partir de uma fonte (Memórias Paroquiais) transcrita, revista e normalizada. Posteriormente, realizou-se uma análise da distribuição das entidades nomeadas na fonte em apreço, para refletir sobre os significados da variação das categorias definidas tendo presente os requisitos dos historiadores. Em seguida, o corpus anotado foi usado para desenvolver modelos de Reconhecimento de Entidades Nomeadas (REN) que respeitem a referida complexidade da análise histórica. Foram treinados e avaliados diferentes soluções e modelos de linguagem para a tarefa de REN, onde os melhores modelos atingem F1 = 0.70. Dessa forma, este trabalho demonstra a utilidade do reconhecimento de entidades nomeadas nas análises de textos históricos e disponibiliza um modelo com capacidades de estender as anotações para um conjunto maior de textos com as mesmas características.
Este artigo apresenta um estudo baseado em textos portugueses do século XVIII, através da análise de entidades nomeadas, tendo em vista potenciá-las para análise histórica. Para isso foi elaborado um corpus anotado, a partir de uma fonte (Memórias Paroquiais) transcrita, revista e normalizada. Posteriormente, realizou-se uma análise da distribuição das entidades nomeadas na fonte em apreço, para refletir sobre os significados da variação das categorias definidas tendo presente os requisitos dos historiadores. Em seguida, o corpus anotado foi usado para desenvolver modelos de Reconhecimento de Entidades Nomeadas (REN) que respeitem a referida complexidade da análise histórica. Foram treinados e avaliados diferentes soluções e modelos de linguagem para a tarefa de REN, onde os melhores modelos atingem F1 = 0.70. Dessa forma, este trabalho demonstra a utilidade do reconhecimento de entidades nomeadas nas análises de textos históricos e disponibiliza um modelo com capacidades de estender as anotações para um conjunto maior de textos com as mesmas características.