Publicação

Assistentes de IA: entre a utilidade e o risco

Detalhes bibliográficos
Resumo:	Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.
Autores principais:	Donato, João
Outros Autores:	Campos, João R.; Campos, João R.; Campos, João Rodrigues; CISUC - Centre for Informatics and Systems of the University of Coimbra; CISUC - Centre for Informatics and Systems of the University of Coimbra; Ribeiro, Bernardete M.; Ribeiro, Bernardete; Ribeiro, Bernardete M.; Ribeiro, Bernardete; CISUC - Centre for Informatics and Systems of the University of Coimbra; bribeiro@dei.uc.pt; 0000-0002-9770-7672; staff; Faculty of Sciences and Technology; Faculty of Sciences and Technology; Oliveira, Paulo Eduardo; University of Coimbra; organization; 01-03-1290; Coimbra; Rua Sílvio Lima Univ. Coimbra - Pólo II 3030-790 Coimbra; PT; research; Coimbra; PT; jrcampos@dei.uc.pt; 0000-0002-4623-764X; 8617-C1B5-B45F; staff; João R. Campos is an Assistant Professor at UC and a full member of CISUC and the Software and Systems Engineering (SSE) research group. His research focuses on exploring and using advanced AI and ML to develop more dependable and secure systems, promoting the field of Intelligent Dependability. His work covers topics such as fault injection and online failure prediction, vulnerability and intrusion detection, safety assurance of AI-based safety-critical systems, and security assessment of NLP-based systems. Leveraging his interdisciplinary background he also researches the use of advanced AI-based solutions in other domains, ranging from Health and Sports, Medicine, Biomedicine, Psychology, and Social Sciences to Physics and Electrical Engineering.
Assunto:	Large Language Models(LLMs) Prompt Hacking Safety Code generation
Ano:	2025
País:	Portugal
Tipo de documento:	artigo
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade de Coimbra
Idioma:	português
Origem:	Estudo Geral - Universidade de Coimbra

Descrição
Resumo:	Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.