Author(s):
Zanatti, Martim ; Ribeiro, Ricardo ; Pinto, H. Sofia ; Borbinha, José
Date: 2025
Origin: Linguamática
Subject(s): Descriptors; Legal Documents; Extreme Multi-label Classification; SLEEC; Descritores; Documentos Legais; SLEEC; Classificação Extrema Multi-etiqueta
Description
Extreme Multi-label Classification (XML) involves predicting multiple labels for a given input, a fundamental problem in domains such as text categorization, recommendation systems, and image tagging. This task presents significant challenges for machine learning and information retrieval, particularly given the exponential growth of online data and the concomitant need for algorithms capable of handling large-scale datasets with numerous labels. Traditional classification methods are inadequate for this task due to the vast number of possible label combinations and the sparsity of label assignments. This paper reports the results of a project with the Supreme Court of Justice of Portugal (``Supremo Tribunal de Justiça Português'') to address the problem using Sparse Local Embeddings for Extreme Multi-label Classification (SLEEC), an embedding-based approach that showed promising results in legal datasets. Our goal was to associate descriptors, which categorize court judgments, with the judgments themselves. This work tackled various challenges, including a large number of descriptors, an unbalanced dataset, numerous tail labels, and extensive document lengths. Our experimental results demonstrate that our approach achieved a precision/recall variation ranging between 0.57 and 0.68, indicating promising performance in this complex task.
A Classificação Extrema Multi-etiqueta (XML) consiste na predição de múltiplas etiquetas para um determinado input, sendo um problema fundamental em domínios como categorização de texto, sistemas de recomendação e marcação de imagens. Esta tarefa apresenta desafios significativos para a aprendizagem automática e a recuperação de informação, especialmente devido ao crescimento exponencial de dados online e à consequente necessidade de algoritmos capazes de lidar com conjuntos de dados de grande escala e com um elevado número de etiquetas. Os métodos tradicionais de classificação são inadequados para esta tarefa devido ao vasto número de possíveis combinações de etiquetas e à dispersão das atribuições. Este artigo apresenta os resultados de um projeto realizado com o Supremo Tribunal de Justiça de Portugal, onde abordámos este problema utilizando Sparse Local Embeddings for Extreme Multi-label Classification (SLEEC), uma abordagem baseada em embeddings que demonstrou resultados promissores no domínio legal. O nosso objetivo foi associar descritores, que categorizam os acórdãos do tribunal Português, aos respetivos acórdãos. Este trabalho enfrentou diversos desafios, nos quais se incluem um elevado número de descritores, um conjunto de dados desbalanceado, a presença de muitas etiquetas raras (tail labels) e a extensão considerável dos documentos. Os resultados experimentais demonstram que a nossa abordagem alcançou uma variação de precisão/cobertura entre 0,57 e 0,68, indicando um desempenho promissor nesta tarefa complexa.
A Classificação Extrema Multi-etiqueta (XML) consiste na predição de múltiplas etiquetas para um determinado input, sendo um problema fundamental em domínios como categorização de texto, sistemas de recomendação e marcação de imagens. Esta tarefa apresenta desafios significativos para a aprendizagem automática e a recuperação de informação, especialmente devido ao crescimento exponencial de dados online e à consequente necessidade de algoritmos capazes de lidar com conjuntos de dados de grande escala e com um elevado número de etiquetas. Os métodos tradicionais de classificação são inadequados para esta tarefa devido ao vasto número de possíveis combinações de etiquetas e à dispersão das atribuições. Este artigo apresenta os resultados de um projeto realizado com o Supremo Tribunal de Justiça de Portugal, onde abordámos este problema utilizando Sparse Local Embeddings for Extreme Multi-label Classification (SLEEC), uma abordagem baseada em embeddings que demonstrou resultados promissores no domínio legal. O nosso objetivo foi associar descritores, que categorizam os acórdãos do tribunal Português, aos respetivos acórdãos. Este trabalho enfrentou diversos desafios, nos quais se incluem um elevado número de descritores, um conjunto de dados desbalanceado, a presença de muitas etiquetas raras (tail labels) e a extensão considerável dos documentos. Os resultados experimentais demonstram que a nossa abordagem alcançou uma variação de precisão/cobertura entre 0,57 e 0,68, indicando um desempenho promissor nesta tarefa complexa.