Publicação

Desenvolvimento de uma framework escalável baseada em inteligência artificial para geração de malware metamórfico adaptável e avaliação de sistemas defensivos

Detalhes bibliográficos
Resumo:	A crescente sofisticação das ameaças cibernéticas, em particular do malware metamórfico, compromete a eficácia de mecanismos de deteção baseados em assinaturas e heurísticas estáticas. Os modelos de linguagem de grande escala (LLMs) ampliaram o potencial da inteligência artificial na geração automática de código e na adaptação a contextos específicos, permitindo a criação de variantes de malware com maior capacidade de evasão. Esta dissertação descreve o desenvolvimento de uma framework escalável, baseada em IA, para a geração de malware metamórfico adaptativo, integrando LLMs locais e na nuvem. A framework gera variantes funcionais de um reverse shell em C, aplicando mutações explicitamente orientadas ao sistema alvo com o objetivo de maximizar a evasão nesse ambiente. Todas as variantes foram geradas a partir do código base não-ofuscado e comparadas com este em termos de evasão. O sistema alvo foi o Windows 11 com Windows Defender; as mutações foram validadas em runtime nesse ambiente controlado e todas as variantes foram adicionalmente avaliadas através do serviço VirusTotal, registando-se também o conjunto de técnicas aplicadas. Durante a validação verificou-se que todas as variantes necessitaram de intervenção manual para correção de erros de compilação/exequibilidade — por exemplo: reordenação de includes, ajuste de chamadas de API e correção de operações de codificação/decodificação — evidenciando limitações actuais na geração automática totalmente autónoma. Os LLMs avaliados incluíram GPT-4 e Grok (nuvem) e Mistral e QWEN (local), permitindo comparar diferenças em diversidade, complexidade e eficiência de geração. Os resultados indicam que, em comparação com o código base, todas as mutações reduziram a deteção pelo Defender e aumentaram a evasão dinâmica. Com contexto, Grok, Mistral e QWEN atingiram 100% de evasão dinâmica, enquanto o GPT-4 alcançou 90%. Sem contexto, as taxas de evasão dinâmica variaram entre 50% e 70%. No VirusTotal, a média de deteções variou de 3.6 a 9.7 com contexto. Estes resultados demonstram a capacidade dos LLMs em produzir variantes metamórficas direcionadas, evidenciando que o contexto aumenta substancialmente a eficácia da evasão. Embora o estudo se tenha centrado no Windows 11 com Windows Defender, a framework foi concebida para futura extensão a outros sistemas alvo.
Autores principais:	Abreu, Marco Alexandre Costa
Assunto:	Malware metamórfico Cibersegurança Inteligência artificial Modelos de linguagem de grande escala (LLMs) Framework de teste Antivírus Evasão Ofuscação VirusTotal
Ano:	2025
País:	Portugal
Tipo de documento:	dissertação de mestrado
Tipo de acesso:	acesso aberto
Instituição associada:	Instituto Politécnico de Beja
Idioma:	português
Origem:	Repositório Institucional do IPBeja

Descrição
Resumo:	A crescente sofisticação das ameaças cibernéticas, em particular do malware metamórfico, compromete a eficácia de mecanismos de deteção baseados em assinaturas e heurísticas estáticas. Os modelos de linguagem de grande escala (LLMs) ampliaram o potencial da inteligência artificial na geração automática de código e na adaptação a contextos específicos, permitindo a criação de variantes de malware com maior capacidade de evasão. Esta dissertação descreve o desenvolvimento de uma framework escalável, baseada em IA, para a geração de malware metamórfico adaptativo, integrando LLMs locais e na nuvem. A framework gera variantes funcionais de um reverse shell em C, aplicando mutações explicitamente orientadas ao sistema alvo com o objetivo de maximizar a evasão nesse ambiente. Todas as variantes foram geradas a partir do código base não-ofuscado e comparadas com este em termos de evasão. O sistema alvo foi o Windows 11 com Windows Defender; as mutações foram validadas em runtime nesse ambiente controlado e todas as variantes foram adicionalmente avaliadas através do serviço VirusTotal, registando-se também o conjunto de técnicas aplicadas. Durante a validação verificou-se que todas as variantes necessitaram de intervenção manual para correção de erros de compilação/exequibilidade — por exemplo: reordenação de includes, ajuste de chamadas de API e correção de operações de codificação/decodificação — evidenciando limitações actuais na geração automática totalmente autónoma. Os LLMs avaliados incluíram GPT-4 e Grok (nuvem) e Mistral e QWEN (local), permitindo comparar diferenças em diversidade, complexidade e eficiência de geração. Os resultados indicam que, em comparação com o código base, todas as mutações reduziram a deteção pelo Defender e aumentaram a evasão dinâmica. Com contexto, Grok, Mistral e QWEN atingiram 100% de evasão dinâmica, enquanto o GPT-4 alcançou 90%. Sem contexto, as taxas de evasão dinâmica variaram entre 50% e 70%. No VirusTotal, a média de deteções variou de 3.6 a 9.7 com contexto. Estes resultados demonstram a capacidade dos LLMs em produzir variantes metamórficas direcionadas, evidenciando que o contexto aumenta substancialmente a eficácia da evasão. Embora o estudo se tenha centrado no Windows 11 com Windows Defender, a framework foi concebida para futura extensão a outros sistemas alvo.