Despite the language widespread usage, publicly available and annotated Portuguese dialogue corpora are scarce. This poses a significant challenge in the development of effective dialogue systems that communicate in Portuguese. Having this in mind, we present MultiWOZ-PT, a new task-oriented dialogue dataset that results from the manual translation of dialogues in the MultiWOZ dataset to the European variety of...
Apresentamos neste artigo o corpo AIA-BDE, que tem como principal objetivo a avaliação de sistemas que procuram associar necessidades de informação expressas em linguagem natural a perguntas com resposta conhecida (i.e., FAQ). Este corpo inclui várias perguntas no domínio da Administração Pública em Portugal e respetivas respostas. A 855 dessas perguntas foram adicionadas, manual e automaticamente, formas...
\begin{resumo} Neste artigo descrevemos um conjunto de experiências realizadas com o objectivo de gerar, de forma automática, adivinhas em português, tendo por base características conhecidas de um conceito. Para além de fazerem sentido, um dos objectivos seria a geração de adivinhas inéditas e, idealmente, com potencial humorístico, nem que por comparação às chamadas ``piadas secas''. Parte do desafio passou p...
Apresentamos duas abordagens distintas à tarefa de avaliação conjunta ASSIN onde, dada uma coleção de pares de frases escritas em português, são colocados dois objectivos para cada par: (a) calcular a similaridade semântica entre as duas frases; e (b) verificar se uma frase do par é paráfrase ou inferência da outra. Uma primeira abordagem, apelidada de Reciclagem, baseia-se exclusivamente em heurísticas sobre r...
Numa wordnet, conceitos são representados através de grupos de palavras, vulgarmente chamados de synsets, e cada pertença de uma palavra a um synset representa um diferente sentido dessa mesma palavra. Mas como os sentidos são entidades complexas, sem fronteiras bem definidas, para lidar com eles de forma menos artificial, sugerimos que synsets sejam tratados como conjuntos difusos, em que cada palavra tem um g...
Este artigo apresenta o CARTÃO, uma nova rede léxico-semântica para o português, composta por relações extraídas a partir de três dicionários electrónicos. Após analisarmos a estrutura das definições nos três, concluímos que as mesmas regras podiam ser utilizadas para extrair relações a partir de vários dicionários. Assim, aproveitamos este facto para utilizar o mesmo conjunto de gramáticas na construção desta ...
Este artigo descreve a abordagem ao Págico seguida pelo sistema Rapportágico. Trata-se de uma abordagem centrada na indexação dos artigos da Wikipédia, na identificação de sintagmas nas frases dos tópicos dados, e no seu posterior processamento e análise, de forma a facilitar a correspondência entre tópicos e artigos que lhes possam servir de resposta. Os sintagmas facilitam a identificação de pequenas estrutur...
PAPEL is a lexical resource for natural language processing (NLP) of Portuguese which is being built by Linguateca, based on processing a major commercial Portuguese dictionary, the Dicionário da Língua Portuguesa (DLP) developed and owned by the largest Portuguese dictionary publisher, Porto Editora. As far as we know, PAPEL is the first lexical ontology built by semi-automatic means for Portuguese. We are cu...