Publicação

Assistentes de IA: entre a utilidade e o risco

Detalhes bibliográficos
Resumo:	Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.
Autores principais:	Donato, João
Outros Autores:	Campos, João R.
Assunto:	Large Language Models(LLMs) Prompt Hacking Safety Code generation
Ano:	2025
País:	Portugal
Tipo de documento:	artigo
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade de Coimbra
Idioma:	português
Origem:	Estudo Geral - Universidade de Coimbra

Registos relacionados

AI Assistants: between usefulness and risk
por: Donato, João
Publicado em: (2025)

Benchmarking LLM Robustness Against Prompt-based Adversarial Attacks
por: Donato, João Maria Campos
Publicado em: (2025)

Prompt assessment for human-AI interaction: Intent, complexity and lay perceptions
por: Páez Velázquez, M.
Publicado em: (2025)

Generative AI for growth hacking: how startups use generative AI in their growth strategies
por: Rezazadeh, Arash
Publicado em: (2025)

Generative AI for growth hacking
por: Rezazadeh, Arash
Publicado em: (2025)

RedShell: A Generative AI-Based Approach to Ethical Hacking
por: Bessa, Ricardo Jorge Matos
Publicado em: (2025)

Employing retrieval augmented generation to optimize LIMS for the legal domain: evaluating methods to improve chatbot performance
por: Schumann, Lorenzo Oliver
Publicado em: (2024)

Financial reporting with GenAI
por: CHEN, MIGUEL HUANG
Publicado em: (2025)

Evaluating the quality of requirements using Generative AI techniques
por: Fonseca, Vasco Fernandes
Publicado em: (2025)

Applying large language models to software development: enhancing requirements, design and code
por: Santos, Gonçalo
Publicado em: (2025)

Developing End-to-End, Deep Learning-Based Chatbots for Healthcare Support in Portuguese
por: Santos, Miguel Ângelo Azeitona dos
Publicado em: (2024)

Applying large language models to software develop-ment: enhancing requirements, design and code
por: Santos, Gonçalo
Publicado em: (2025)

Exploring few-shot approaches to automatic text complexity assessment in european portuguese
por: Ribeiro, Eugénio
Publicado em: (2025)

Exploring few-shot approaches to automatic text complexity assessment in European Portuguese
por: Ribeiro, E.
Publicado em: (2025)

Multimodal Learning for Lung Cancer Diagnosis and Management: A Deep Learning Pipeline for Classification, TNM Staging, and Treatment Protocol Generation
por: Silva, Catarina Costa Pereira Nascimento da
Publicado em: (2025)

Can open large language models catch vulnerabilities?
por: Lopes, D. G.
Publicado em: (2025)

Sistema multi-agente resiliente para detecção de spam com proteção contra prompt injection
por: SILVA, STÉFANE KATARINE RODRIGUES DA
Publicado em: (2026)

From Symptoms to Services: An LLM Chatbot for Effective Departmental Referral
por: Shi, Qi
Publicado em: (2024)

Leveraging Large Language Models for Process Analytics Assistants: Assessing Accuracy in Process Mining Tasks
por: Reis, Diogo Alexandre Mousinho dos
Publicado em: (2025)

Tourists and artificial intelligence-LLM interaction: The power of forgiveness
por: Loureiro, S. M. C.
Publicado em: (2025)

GPT-4.1 Sets the Standard in Automated Experiment Design Using Novel Python Libraries
por: Fachada, Nuno
Publicado em: (2025)

Ai-driven decision support in the automotive industry: designing a user-centric ai chatbot using large language models and the double diamond approach
por: Preiss, Florian Fritz
Publicado em: (2024)

Otimização de prompts em Modelos de Linguagem de Grande Escala
por: CUNHA, ANDRÉ MACHADO LEÃO DA SILVA
Publicado em: (2025)

Prompt Engineering for Knowledge Extraction from Large Language Models
por: Gouveia, Rafael Santos
Publicado em: (2024)

Applications of large language models in cardiovascular disease: a systematic review
por: Santos, José Ferreira
Publicado em: (2025)

Assessing the effectiveness of Large Language Models in automated threat modeling
por: BATISTA, ANA ISABEL MOURA
Publicado em: (2025)

Prompting for socially intelligent agents with chatGPT
por: Antunes, Ana
Publicado em: (2023)

Unraveling emotions with pre-trained models
por: Pajón-Sanmartín, Alejandro
Publicado em: (2025)

Are we there yet?: On security vulnerabilities produced by open source generative AI models and Its Implications for security education
por: Galeano, M. C.
Publicado em: (2025)

Benchmarking Large Language Models for Code Generation
por: Nogueira, Rodrigo Pato de Carvalho
Publicado em: (2025)

Enabling secure coding: Exploring GenAI for developer training and education
por: Sathwik A.
Publicado em: (2025)

AI-Powered Content Recommender for Online Shopping Systems Using Pre-Trained Models
por: Adili, Rina
Publicado em: (2025)

The role of business consulting firms in the era of artificial intelligence
por: Melo, Inês Pedro da Rocha
Publicado em: (2025)

Political polarization in Portugal-measuring affective polarization using large language models
por: Gerth, Simon
Publicado em: (2026)

ChatGPT for tourism: applications, benefits and risks
por: Carvalho, Inês
Publicado em: (2024)

AI-driven information retrieval system for candidate screening
por: Silva, Vasco Reid Ferreira da
Publicado em: (2024)

From prediction to precision: leveraging LLMs for equitable and data-driven writing placement in developmental education
por: Da Corte, Miguel
Publicado em: (2025)

From prediction to precision: leveraging LLMs for equitable and data-driven writing placement in developmental education
por: Da Corte, Miguel
Publicado em: (2025)

Applying LLM-based entity matching for hierarchical product categorization in e-commerce
por: Markwardt, Elias
Publicado em: (2025)

Dynamic integration of taxonomy-specific knowledge graphs with Large Language Models for hierarchical product categorization in e-commerce
por: Luedecke, Linus
Publicado em: (2025)

Atividades financiadas

Carregando projetos financiados...