Autor(es):
Alcoforado, Alexandre ; Okamura, Lucas ; Ferraz, Thomas ; Campos Fama, Israel ; Dias Bueno, Bárbara ; Veloso, Bruno Miguel ; Reali Costa, Anna Helena
Data: 2025
Origem: Linguamática
Assunto(s): imbalanced data; nlp; transformers; few-shot learning; reverse semantic search; pln; transformers; aprendizagem de poucas amostras; busca semântica reversa; dados desbalanceados
Descrição
Acquiring high-quality annotated data remains one of the most significant challenges in Natural Language Processing (NLP), especially for supervised learning approaches. In scenarios where pre-existing labeled data is unavailable, common solutions like crowdsourcing and zero-shot approaches often fall short, suffering from limitations such as the need for large datasets and a lack of guarantees regarding annotation quality. Traditionally, data for human annotation has been selected randomly, a practice that is not only costly and inefficient but also prone to bias, particularly in imbalanced datasets where minority classes are underrepresented. To address these challenges, this work introduces an automatic and informed data selection architecture designed to minimize the volume of required annotations while maximizing the diversity and representativeness of the selected data. Among the evaluated methods, Reverse Semantic Search (RSS) demonstrated superior performance, consistently outperforming random sampling in imbalanced scenarios and enhancing the effectiveness of trained classifiers. Furthermore, we compared RSS with other clustering-based approaches, providing insights into their respective strengths and weaknesses.
A obtenção de dados anotados de alta qualidade é um dos principais desafios no Processamento de Linguagem Natural (PLN), especialmente em métodos de aprendizado supervisionado. Em cenários onde dados previamente anotados não estão disponíveis, soluções comuns como o crowdsourcing e a abordagem zero-shot frequentemente apresentam limitações, incluindo a necessidade de grandes volumes de dados e a falta de garantias quanto à qualidade das anotações. Tradicionalmente, os dados para anotação humana são selecionados de forma aleatória, uma prática que não só é custosa e ineficiente, mas também suscetível a viés, particularmente em conjuntos de dados desbalanceados, onde as classes minoritárias são sub-representadas. Para enfrentar esses desafios, este trabalho apresenta uma arquitetura de seleção automática e informada de dados, projetada para minimizar o volume de anotações necessárias enquanto maximiza a diversidade e representatividade dos dados selecionados. Entre os métodos avaliados, a Busca Semântica Reversa (RSS) se destacou, superando consistentemente a seleção por amostragem aleatória em cenários desbalanceados e melhorando o desempenho dos classificadores treinados. Além disso, realiza-se uma comparação entre a RSS e outros métodos baseados em agrupamento, discutindo seus pontos fortes e fracos.
A obtenção de dados anotados de alta qualidade é um dos principais desafios no Processamento de Linguagem Natural (PLN), especialmente em métodos de aprendizado supervisionado. Em cenários onde dados previamente anotados não estão disponíveis, soluções comuns como o crowdsourcing e a abordagem zero-shot frequentemente apresentam limitações, incluindo a necessidade de grandes volumes de dados e a falta de garantias quanto à qualidade das anotações. Tradicionalmente, os dados para anotação humana são selecionados de forma aleatória, uma prática que não só é custosa e ineficiente, mas também suscetível a viés, particularmente em conjuntos de dados desbalanceados, onde as classes minoritárias são sub-representadas. Para enfrentar esses desafios, este trabalho apresenta uma arquitetura de seleção automática e informada de dados, projetada para minimizar o volume de anotações necessárias enquanto maximiza a diversidade e representatividade dos dados selecionados. Entre os métodos avaliados, a Busca Semântica Reversa (RSS) se destacou, superando consistentemente a seleção por amostragem aleatória em cenários desbalanceados e melhorando o desempenho dos classificadores treinados. Além disso, realiza-se uma comparação entre a RSS e outros métodos baseados em agrupamento, discutindo seus pontos fortes e fracos.