Document details

MultiWOZ-PT: A Task-oriented Dialogue Dataset in Portuguese

Author(s): Ferreira, Patrícia ; Pais, Francisco ; Silva, Catarina ; Alves, Ana ; Gonçalo Oliveira, Hugo

Date: 2024

Origin: Linguamática

Subject(s): task-oriented dialogue dataset; translation; multiWOZ; dialogue state tracking; intent recognition; slot filling; conjunto de diálogos orientados a tarefas; tradução; multiWOZ; monitorização do estado do diálogo; reconhecimento de intenções; preenchimento de slots


Description

Despite the language widespread usage, publicly available and annotated Portuguese dialogue corpora are scarce. This poses a significant challenge in the development of effective dialogue systems that communicate in Portuguese. Having this in mind, we present MultiWOZ-PT, a new task-oriented dialogue dataset that results from the manual translation of dialogues in the MultiWOZ dataset to the European variety of Portuguese, as well as an adaptation of its database. We provide comprehensive guidelines and insights into the process of creating MultiWOZ-PT and, to demonstrate its practical utility, we conducted experiments in two task-oriented scenarios: Intent Recognition and Dialog State Tracking, both useful for dialogue systems. Reported results illustrate the dataset's effectiveness and its potential for training and evaluating language understanding and dialogue management models for Portuguese. Therefore, MultiWOZ-PT constitutes a significant contribution to the computational processing of this language, fostering further research and development.

Apesar do amplo uso da língua portuguesa, corpos de diálogos em português, disponíveis publicamente e com anotações, são escassos. Isto torna ainda mais desafiante o desenvolvimento de sistemas de diálogo eficazes que comuniquem nesta língua. Assim, apresentamos o MultiWOZ-PT, um novo conjunto de diálogos orientados a tarefas, resultado da tradução manual de uma parte do conjunto MultiWOZ para a variedade europeia do português, e da adaptação da sua base de dados. Fornecemos diretrizes abrangentes sobre o processo de criação do MultiWOZ-PT e, para demonstrar a sua utilidade prática, realizamos experiências em dois cenários orientados a tarefas: Reconhecimento de Intenções e Monitorização do Estado do Diálogo, ambos úteis para sistemas de diálogo. Os resultados obtidos ilustram a utilidade do conjunto de dados e o seu potencial para treinar e avaliar modelos de compreensão de linguagem natural e gestão de diálogo para o português. Assim sendo, o MultiWOZ-PT constitui uma contribuição significativa para o processamento computacional dessa língua, incentivando mais pesquisas e desenvolvimento de trabalho nas áreas alvo.

Apesar do amplo uso da língua portuguesa, corpos de diálogos em português, disponíveis publicamente e com anotações, são escassos. Isto torna ainda mais desafiante o desenvolvimento de sistemas de diálogo eficazes que comuniquem nesta língua. Assim, apresentamos o MultiWOZ-PT, um novo conjunto de diálogos orientados a tarefas, resultado da tradução manual de uma parte do conjunto MultiWOZ para a variedade europeia do português, e da adaptação da sua base de dados. Fornecemos diretrizes abrangentes sobre o processo de criação do MultiWOZ-PT e, para demonstrar a sua utilidade prática, realizamos experiências em dois cenários orientados a tarefas: Reconhecimento de Intenções e Monitorização do Estado do Diálogo, ambos úteis para sistemas de diálogo. Os resultados obtidos ilustram a utilidade do conjunto de dados e o seu potencial para treinar e avaliar modelos de compreensão de linguagem natural e gestão de diálogo para o português. Assim sendo, o MultiWOZ-PT constitui uma contribuição significativa para o processamento computacional dessa língua, incentivando mais pesquisas e desenvolvimento de trabalho nas áreas alvo.

Document Type Journal article
Language Portuguese
facebook logo  linkedin logo  twitter logo 
mendeley logo

Related documents

No related documents