Detalhes do Documento

Arbitrary Portuguese text style transfer

Autor(es): Botton da Costa, Pablo ; Paraboni, Ivandré

Data: 2023

Origem: Linguamática

Assunto(s): natural language generation; arbitrary style transfer; paraphrases; sequence-to-sequence; large language models; geração de língua natural; transferência de estilo arbitrário; paráfrases; sequência-para-sequência; grandes modelos de língua


Descrição

In Automatic Natural Language Generation, arbitrary style transfer models aim to rewrite a text using any desired new set of stylistic features. In the case of the Portuguese language, however, we notice that the resources required for the development of models of this type are still considerably scarce compared to those dedicated to the English language. Thus, as a first step towards the development of advanced methods of this kind, the present work investigates the issue of arbitrary style transfer with the aid of paraphrases in Portuguese, combined with the use of neural models built from sequence-to-sequence architectures and by refining a number of large language models. In addition to the textual rewriting models themselves, the study also presents novel resources for the task in the form of a corpus of paraphrases and a model of embeddingsvalidated in both sentence similarity and simplification tasks, with results comparable to the state of the art.

 Na Geração automática de língua natural, modelos de transferência de estilo textual arbitrário objetivam a reescrita de um texto usando qualquer novo conjunto de características estilísticas desejado. Em se tratando do idioma português, entretanto, observa-se que os recursos linguístico-computacionais necessários para o desenvolvimento de modelos deste tipo ainda são consideravelmente escassos em comparação à língua inglesa. Assim, como um primeiro passo em direção ao desenvolvimento de métodos avançados deste tipo, o presente trabalho investiga a questão da transferência de estilo textual arbitrário com o uso de paráfrases em português, combinadas ao uso de modelos neurais construídos a partir de arquiteturas do tipo sequência-para-sequência e por refinamento de grandes modelos de língua. Além dos modelos de reescrita textuais propriamente ditos, o estudo apresenta também recursos inéditos para a tarefa na forma de um córpus de paráfrases e de um modelo de \textit{embeddings} validado nas tarefas de similaridade e simplificação sentencial, com resultados comparáveis ao estado da arte.

 Na Geração automática de língua natural, modelos de transferência de estilo textual arbitrário objetivam a reescrita de um texto usando qualquer novo conjunto de características estilísticas desejado. Em se tratando do idioma português, entretanto, observa-se que os recursos linguístico-computacionais necessários para o desenvolvimento de modelos deste tipo ainda são consideravelmente escassos em comparação à língua inglesa. Assim, como um primeiro passo em direção ao desenvolvimento de métodos avançados deste tipo, o presente trabalho investiga a questão da transferência de estilo textual arbitrário com o uso de paráfrases em português, combinadas ao uso de modelos neurais construídos a partir de arquiteturas do tipo sequência-para-sequência e por refinamento de grandes modelos de língua. Além dos modelos de reescrita textuais propriamente ditos, o estudo apresenta também recursos inéditos para a tarefa na forma de um córpus de paráfrases e de um modelo de \textit{embeddings} validado nas tarefas de similaridade e simplificação sentencial, com resultados comparáveis ao estado da arte.

Tipo de Documento Artigo científico
Idioma Português
facebook logo  linkedin logo  twitter logo 
mendeley logo

Documentos Relacionados

Não existem documentos relacionados.