Publicação

Assistentes de IA: entre a utilidade e o risco

Detalhes bibliográficos
Resumo:	Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.
Autores principais:	Donato, João
Outros Autores:	Campos, João R.
Assunto:	Large Language Models(LLMs) Prompt Hacking Safety Code generation
Ano:	2025
País:	Portugal
Tipo de documento:	artigo
Tipo de acesso:	acesso aberto
Instituição associada:	Universidade de Coimbra
Idioma:	português
Origem:	Estudo Geral - Universidade de Coimbra

_version_	1868797886144184320
author	Donato, João
author2	Campos, João R.
author2_role	author
author_facet	Donato, João Campos, João R.
author_role	author
contributor_name_str_mv	Estudo Geral
country_str	PT
creators_json_txt	[{\"Person.name\":\"Donato, João\"},{\"Person.name\":\"Campos, João R.\"}]
datacite.contributors.contributor.contributorName.fl_str_mv	Estudo Geral
datacite.creators.creator.creatorName.fl_str_mv	Donato, João Campos, João R.
datacite.date.Accepted.fl_str_mv	2025-01-01T00:00:00Z
datacite.date.available.fl_str_mv	2025-01-01T00:00:00Z
datacite.rights.fl_str_mv	http://purl.org/coar/access_right/c_abf2
datacite.subjects.subject.fl_str_mv	Large Language Models(LLMs) Prompt Hacking Safety Code generation
datacite.titles.title.fl_str_mv	Assistentes de IA: entre a utilidade e o risco
dc.contributor.none.fl_str_mv	Estudo Geral
dc.creator.none.fl_str_mv	Donato, João Campos, João R.
dc.date.Accepted.fl_str_mv	2025-01-01T00:00:00Z
dc.date.available.fl_str_mv	2025-01-01T00:00:00Z
dc.format.none.fl_str_mv	application/pdf
dc.identifier.none.fl_str_mv	https://hdl.handle.net/10316/121273
dc.language.none.fl_str_mv	por
dc.rights.none.fl_str_mv	http://purl.org/coar/access_right/c_abf2
dc.subject.none.fl_str_mv	Large Language Models(LLMs) Prompt Hacking Safety Code generation
dc.title.fl_str_mv	Assistentes de IA: entre a utilidade e o risco
dc.type.none.fl_str_mv	http://purl.org/coar/resource_type/c_6501
description	Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.
dirty	0
eu_rights_str_mv	openAccess
format	article
id	estudogl_81b65b0ea90efd56da2f27f736b7aefd
identifier.url.fl_str_mv	https://hdl.handle.net/10316/121273
instacron_str	uc
institution	Universidade de Coimbra
instname_str	Universidade de Coimbra
language	por
network_acronym_str	estudogl
network_name_str	Estudo Geral - Universidade de Coimbra
oai_identifier_str	oai:estudogeral.uc.pt:10316/121273
organization_str_mv	urn:organizationAcronym:uc
person_str_mv	Donato, João Campos, João R.
publishDate	2025
reponame_str	Estudo Geral - Universidade de Coimbra
repository_id_str	urn:repositoryAcronym:estudogl
service_str_mv	urn:repositoryAcronym:estudogl
spelling	porptChatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.application/pdfptAssistentes de IA: entre a utilidade e o riscoDonato, JoãoCampos, João R.HostingInstitutionOrganizationalEstudo Gerale-mailmailto:inf@sib.uc.ptinf@sib.uc.pt20252025-01-01T00:00:00Z2025-01-01T00:00:00ZHandlehttps://hdl.handle.net/10316/121273http://purl.org/coar/access_right/c_abf2open accessLarge Language Models(LLMs)Prompt HackingSafetyCode generation4597433 bytesliteraturehttp://purl.org/coar/resource_type/c_6501journal articleapplication/pdfhttps://estudogeral.uc.pt/bitstream/10316/121273/1/Whitepaper_Assistentes%20de%20IA_Entre%20a%20Utilidade%20e%20o%20Risco.pdf
spellingShingle	Assistentes de IA: entre a utilidade e o risco Donato, João Large Language Models(LLMs) Prompt Hacking Safety Code generation
status	SINGLETON
subject.fl_str_mv	Large Language Models(LLMs) Prompt Hacking Safety Code generation
title	Assistentes de IA: entre a utilidade e o risco
title_full	Assistentes de IA: entre a utilidade e o risco
title_fullStr	Assistentes de IA: entre a utilidade e o risco
title_full_unstemmed	Assistentes de IA: entre a utilidade e o risco
title_short	Assistentes de IA: entre a utilidade e o risco
title_sort	Assistentes de IA: entre a utilidade e o risco
topic	Large Language Models(LLMs) Prompt Hacking Safety Code generation
topic_facet	Large Language Models(LLMs) Prompt Hacking Safety Code generation
url	https://hdl.handle.net/10316/121273
visible	1

Publicação

Assistentes de IA: entre a utilidade e o risco

Registos relacionados