Publicação

Assistentes de IA: entre a utilidade e o risco

Ver documento

Detalhes bibliográficos
Resumo:Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.
Autores principais:Donato, João
Outros Autores:Campos, João R.
Assunto:Large Language Models(LLMs) Prompt Hacking Safety Code generation
Ano:2025
País:Portugal
Tipo de documento:artigo
Tipo de acesso:acesso aberto
Instituição associada:Universidade de Coimbra
Idioma:português
Origem:Estudo Geral - Universidade de Coimbra
_version_ 1868797886144184320
author Donato, João
author2 Campos, João R.
author2_role author
author_facet Donato, João
Campos, João R.
author_role author
contributor_name_str_mv Estudo Geral
country_str PT
creators_json_txt [{\"Person.name\":\"Donato, João\"},{\"Person.name\":\"Campos, João R.\"}]
datacite.contributors.contributor.contributorName.fl_str_mv Estudo Geral
datacite.creators.creator.creatorName.fl_str_mv Donato, João
Campos, João R.
datacite.date.Accepted.fl_str_mv 2025-01-01T00:00:00Z
datacite.date.available.fl_str_mv 2025-01-01T00:00:00Z
datacite.rights.fl_str_mv http://purl.org/coar/access_right/c_abf2
datacite.subjects.subject.fl_str_mv Large Language Models(LLMs)
Prompt Hacking
Safety
Code generation
datacite.titles.title.fl_str_mv Assistentes de IA: entre a utilidade e o risco
dc.contributor.none.fl_str_mv Estudo Geral
dc.creator.none.fl_str_mv Donato, João
Campos, João R.
dc.date.Accepted.fl_str_mv 2025-01-01T00:00:00Z
dc.date.available.fl_str_mv 2025-01-01T00:00:00Z
dc.format.none.fl_str_mv application/pdf
dc.identifier.none.fl_str_mv https://hdl.handle.net/10316/121273
dc.language.none.fl_str_mv por
dc.rights.none.fl_str_mv http://purl.org/coar/access_right/c_abf2
dc.subject.none.fl_str_mv Large Language Models(LLMs)
Prompt Hacking
Safety
Code generation
dc.title.fl_str_mv Assistentes de IA: entre a utilidade e o risco
dc.type.none.fl_str_mv http://purl.org/coar/resource_type/c_6501
description Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.
dirty 0
eu_rights_str_mv openAccess
format article
id estudogl_81b65b0ea90efd56da2f27f736b7aefd
identifier.url.fl_str_mv https://hdl.handle.net/10316/121273
instacron_str uc
institution Universidade de Coimbra
instname_str Universidade de Coimbra
language por
network_acronym_str estudogl
network_name_str Estudo Geral - Universidade de Coimbra
oai_identifier_str oai:estudogeral.uc.pt:10316/121273
organization_str_mv urn:organizationAcronym:uc
person_str_mv Donato, João
Campos, João R.
publishDate 2025
reponame_str Estudo Geral - Universidade de Coimbra
repository_id_str urn:repositoryAcronym:estudogl
service_str_mv urn:repositoryAcronym:estudogl
spelling porptChatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.application/pdfptAssistentes de IA: entre a utilidade e o riscoDonato, JoãoCampos, João R.HostingInstitutionOrganizationalEstudo Gerale-mailmailto:inf@sib.uc.ptinf@sib.uc.pt20252025-01-01T00:00:00Z2025-01-01T00:00:00ZHandlehttps://hdl.handle.net/10316/121273http://purl.org/coar/access_right/c_abf2open accessLarge Language Models(LLMs)Prompt HackingSafetyCode generation4597433 bytesliteraturehttp://purl.org/coar/resource_type/c_6501journal articleapplication/pdfhttps://estudogeral.uc.pt/bitstream/10316/121273/1/Whitepaper_Assistentes%20de%20IA_Entre%20a%20Utilidade%20e%20o%20Risco.pdf
spellingShingle Assistentes de IA: entre a utilidade e o risco
Donato, João
Large Language Models(LLMs)
Prompt Hacking
Safety
Code generation
status SINGLETON
subject.fl_str_mv Large Language Models(LLMs)
Prompt Hacking
Safety
Code generation
title Assistentes de IA: entre a utilidade e o risco
title_full Assistentes de IA: entre a utilidade e o risco
title_fullStr Assistentes de IA: entre a utilidade e o risco
title_full_unstemmed Assistentes de IA: entre a utilidade e o risco
title_short Assistentes de IA: entre a utilidade e o risco
title_sort Assistentes de IA: entre a utilidade e o risco
topic Large Language Models(LLMs)
Prompt Hacking
Safety
Code generation
topic_facet Large Language Models(LLMs)
Prompt Hacking
Safety
Code generation
url https://hdl.handle.net/10316/121273
visible 1