Document details

Automatic Analysis and Classification of Discourse Domains in Brazilian Portuguese

Author(s): Serras, Felipe Ribas ; Carpi, Miguel de Mello ; Sturzeneker, Mariana Lourenço ; Palma, Mayara Feliciano ; Costa, Aline Silva ; Monte, Vanessa Martins do ; Namiuti, Cristiane ; Crespo, Maria Clara Ramos Morales ; Paixão de Sousa, Maria Clara ; Finger, Marcelo

Date: 2026

Origin: Linguamática

Subject(s): automatic text classification; identification of textual properties; automated textual analysis; discursive domains; Brazilian portuguese; recognition of discoursive patterns; computational study of language; classificação automática de textos; identificação de propriedades textuais; análise textual automatizada; domínios discursivos; português brasileiro; reconhecimento de padrões discursivos; estudo computacional da linguagem


Description

This paper addresses the identification of the Juridical, Entertainment, Journalistic, Virtual, and Instructional discourse domains of Brazilian Portuguese at the sentence level, sampled from the Carolina corpus. We evaluate grammatical, lexical, and semantic properties. We demonstrate that the domains are discernible and organized into a consistent scale, which we associate with the oral-involved vs. literate-informational distinction based on comparison with other works. We trained Transformer classifiers on a new sentence dataset for domain identification, achieving high performance. The models' error patterns correlate with the identified scale, suggesting the models captured this dimension of variation. The datasets and models developed in this study are publicly available.

Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.

Este artigo trata da identificação dos domínios discursivos Jurídico, Entretenimento, Jornalístico, Fórum Virtual e Instrucional do português brasileiro no nível sentencial, amostrados do corpus Carolina. Avaliamos propriedades gramaticais, lexicais e semânticas. Demonstramos que os domínios são discerníveis e se organizam em uma escala consistente que associamos à distinção oral-envolvido vs. literato-informacional a partir da comparação com outros trabalhos. Treinamos classificadores Transformer em um novo dataset de sentenças para identificação de domínios, alcançando alta performance. Os padrões de erro dos modelos correlacionam-se com a escala identificada, indicando a captura desta dimensão de variação. Disponibilizamos publicamente os datasets e modelos produzidos.

Document Type Journal article
Language Portuguese
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents