Publicação
Assistentes de IA: entre a utilidade e o risco
| Resumo: | Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA. |
|---|---|
| Autores principais: | Donato, João |
| Outros Autores: | Campos, João R. |
| Assunto: | Large Language Models(LLMs) Prompt Hacking Safety Code generation |
| Ano: | 2025 |
| País: | Portugal |
| Tipo de documento: | artigo |
| Tipo de acesso: | acesso aberto |
| Instituição associada: | Universidade de Coimbra |
| Idioma: | português |
| Origem: | Estudo Geral - Universidade de Coimbra |
| _version_ | 1868797886144184320 |
|---|---|
| author | Donato, João |
| author2 | Campos, João R. |
| author2_role | author |
| author_facet | Donato, João Campos, João R. |
| author_role | author |
| contributor_name_str_mv | Estudo Geral |
| country_str | PT |
| creators_json_txt | [{\"Person.name\":\"Donato, João\"},{\"Person.name\":\"Campos, João R.\"}] |
| datacite.contributors.contributor.contributorName.fl_str_mv | Estudo Geral |
| datacite.creators.creator.creatorName.fl_str_mv | Donato, João Campos, João R. |
| datacite.date.Accepted.fl_str_mv | 2025-01-01T00:00:00Z |
| datacite.date.available.fl_str_mv | 2025-01-01T00:00:00Z |
| datacite.rights.fl_str_mv | http://purl.org/coar/access_right/c_abf2 |
| datacite.subjects.subject.fl_str_mv | Large Language Models(LLMs) Prompt Hacking Safety Code generation |
| datacite.titles.title.fl_str_mv | Assistentes de IA: entre a utilidade e o risco |
| dc.contributor.none.fl_str_mv | Estudo Geral |
| dc.creator.none.fl_str_mv | Donato, João Campos, João R. |
| dc.date.Accepted.fl_str_mv | 2025-01-01T00:00:00Z |
| dc.date.available.fl_str_mv | 2025-01-01T00:00:00Z |
| dc.format.none.fl_str_mv | application/pdf |
| dc.identifier.none.fl_str_mv | https://hdl.handle.net/10316/121273 |
| dc.language.none.fl_str_mv | por |
| dc.rights.none.fl_str_mv | http://purl.org/coar/access_right/c_abf2 |
| dc.subject.none.fl_str_mv | Large Language Models(LLMs) Prompt Hacking Safety Code generation |
| dc.title.fl_str_mv | Assistentes de IA: entre a utilidade e o risco |
| dc.type.none.fl_str_mv | http://purl.org/coar/resource_type/c_6501 |
| description | Chatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA. |
| dirty | 0 |
| eu_rights_str_mv | openAccess |
| format | article |
| id | estudogl_81b65b0ea90efd56da2f27f736b7aefd |
| identifier.url.fl_str_mv | https://hdl.handle.net/10316/121273 |
| instacron_str | uc |
| institution | Universidade de Coimbra |
| instname_str | Universidade de Coimbra |
| language | por |
| network_acronym_str | estudogl |
| network_name_str | Estudo Geral - Universidade de Coimbra |
| oai_identifier_str | oai:estudogeral.uc.pt:10316/121273 |
| organization_str_mv | urn:organizationAcronym:uc |
| person_str_mv | Donato, João Campos, João R. |
| publishDate | 2025 |
| reponame_str | Estudo Geral - Universidade de Coimbra |
| repository_id_str | urn:repositoryAcronym:estudogl |
| service_str_mv | urn:repositoryAcronym:estudogl |
| spelling | porptChatbots e assistentes de Inteligência Artificial (IA), como ChatGPT, Gemini e Copilot, estão a tornar-se cada vez mais parte da vida quotidiana, apoiando atividades que vão desde escrever e-mails e complementar trabalhos escolares até ao desenvolvimento de software. São amplamente acessíveis, baratos de utilizar e podem melhorar significativamente a produtividade. Mas, embora sejam frequentes úteis, nem sempre são seguros. Com pedidos cuidadosamente concebidos, estes sistemas podem ser induzidos a produzir conteúdo nocivo, enganoso e perigoso. Tal como os utilizadores legítimos beneficiam do seu potencial, agentes maliciosos também os podem explorar para automatizar, modificar e transformar informação em arma. As empresas estão a investir fortemente em tornar assistentes de IA mais seguros, com o objetivo de detetar e bloquear utilizações indevidas. No entanto, acontecimentos recentes mostram que continuam altamente vulneráveis. Atualmente, não existe um método claro, consistente ou estabelecido para testar quão bem esses sistemas resistem à manipulação. Afirmações de segurança são, por vezes, apresentadas, mas sem avaliações transparentes e sistemáticas, a sua fiabilidade permanece incerta. Neste trabalho, propomos um método estruturado para avaliar a segurança de grandes chatbots de IA através de testes diretos de utilização maliciosa. Aplicámos este método a vários modelos de IA e descobrimos que, no domínio da geração de código, estes frequentemente recusam produzir conteúdo abertamente maliciosos, mas podem ainda assim ser enganados a criar software inseguro ou prejudicial. Observámos também que estratégias simples, como interpretação de papéis ou prompts com vários passos, contornam as suas proteções de forma muito mais eficaz do que o esperado. Esta conclusões evidenciam tanto as limitações dos atuais assistentes de IA como os riscos do seu uso indevido. Como, as suas respostas influenciam cada vez mais a educação, o trabalho, a saúde e até a segurança, é crucial identificar sistematicamente as suas fragilidades. Ao desenvolver metodologias claras para testes, podemos apoiar um design mais seguro, avaliações mais fiáveis e uma maior confiança nos sistemas de IA.application/pdfptAssistentes de IA: entre a utilidade e o riscoDonato, JoãoCampos, João R.HostingInstitutionOrganizationalEstudo Gerale-mailmailto:inf@sib.uc.ptinf@sib.uc.pt20252025-01-01T00:00:00Z2025-01-01T00:00:00ZHandlehttps://hdl.handle.net/10316/121273http://purl.org/coar/access_right/c_abf2open accessLarge Language Models(LLMs)Prompt HackingSafetyCode generation4597433 bytesliteraturehttp://purl.org/coar/resource_type/c_6501journal articleapplication/pdfhttps://estudogeral.uc.pt/bitstream/10316/121273/1/Whitepaper_Assistentes%20de%20IA_Entre%20a%20Utilidade%20e%20o%20Risco.pdf |
| spellingShingle | Assistentes de IA: entre a utilidade e o risco Donato, João Large Language Models(LLMs) Prompt Hacking Safety Code generation |
| status | SINGLETON |
| subject.fl_str_mv | Large Language Models(LLMs) Prompt Hacking Safety Code generation |
| title | Assistentes de IA: entre a utilidade e o risco |
| title_full | Assistentes de IA: entre a utilidade e o risco |
| title_fullStr | Assistentes de IA: entre a utilidade e o risco |
| title_full_unstemmed | Assistentes de IA: entre a utilidade e o risco |
| title_short | Assistentes de IA: entre a utilidade e o risco |
| title_sort | Assistentes de IA: entre a utilidade e o risco |
| topic | Large Language Models(LLMs) Prompt Hacking Safety Code generation |
| topic_facet | Large Language Models(LLMs) Prompt Hacking Safety Code generation |
| url | https://hdl.handle.net/10316/121273 |
| visible | 1 |