Pular para o conteúdo

O maior catálogo de malware para treinar a Inteligência Artificial contra hackers

Por Jackie Snow
Publicado no MIT Technology Review

O malware (uma peça de código malicioso) pode assumir várias formas, como ransomware ou botnets, e está sempre proliferando. Não importa o quanto tentemos, os humanos encarregados de defender nossos computadores estão se afogando em um oceano de ataques cibernéticos. Então, alguns começaram a usar Inteligência Artificial (IA) para ajudá-los a automatizar parte do trabalho.

Mas há um problema: as ferramentas de Aprendizagem de Máquina (Machine Learning) que poderão aliviar sua carga precisam de uma grande quantidade de dados. Não é difícil obter essa grande quantidade de informação para tarefas como visão artificial e processamento de linguagem natural, porque já existem enormes conjuntos de dados de código aberto disponíveis para ensinar coisas, como, por exemplo, qual a aparência de um gato, ou como as palavras se relacionam umas com as outras. No mundo do malware, esse tipo de informação não existia… até agora.

Na semana passada, a empresa de cibersegurança Endgame publicou um grande conjunto de dados de código aberto chamado EMBER (Endgame Malware Benchmark for Research). EMBER é uma coleção de mais de um milhão de representações de pequenos arquivos executáveis do Windows, benignos e malignos, um formato muito comum para esconder malware. Uma equipe da empresa também lançou um software de IA que pode ser treinado com esse conjunto de dados. A ideia é que, para que a IA se torne uma arma poderosa na luta contra o malware, ela precisa saber o que buscar.

As empresas de cibersegurança têm um mar de dados potenciais com os quais eles poderiam treinar seus algoritmos, mas isso é uma faca de dois gumes. Os cibercriminosos que fabricam malware modificam seus códigos constantemente para evitar as mais recentes técnicas de detecção. Isso faz com que o treinamento com exemplos desatualizados de malware seja bastante inútil.

“É como brincar de rato e gato”, lamenta o professor de ciência da computação da Universidade de Maryland (EUA), Charles Nicholas.

E é justamente contra isso que o EMBER tenta lutar. Seu objetivo é ajudar os programas automatizados de cibersegurança a se manterem atualizados.

No lugar de uma coleção de arquivos reais, que poderia infectar o computador de qualquer pesquisador que o usasse, EMBER contém uma espécie de avatar de cada arquivo, ou seja, uma representação digital que dá ao algoritmo uma ideia das características típicas que geralmente contêm os arquivos benignos e malignos, mas sem expor a máquina ao conteúdo malicioso.

Isso deveria ajudar os especialistas em cibersegurança a treinar e testar rapidamente mais algoritmos, além de permitir que eles criem uma Inteligência Artificial mais eficaz e adaptável para a caça do malware.

É claro que o fato de o conjunto de dados EMBER tenha sido publicado abertamente permite que qualquer pessoa o use, o que inclui os próprios cibercriminosos. Os criadores de malware podem usar os dados para projetar sistemas que passem despercebidos por uma Inteligência Artificial treinada com os mesmos dados. O diretor técnico de Ciência de Dados da Endgame, Hyrum Anderson, afirma que eles levaram essa situação em consideração e que ele espera que os benefícios do EMBER superem os riscos. Além disso, os cibercrimes são tão lucrativos que os responsáveis pelos programas maliciosos já estão motivados o suficiente para continuar aperfeiçoando suas ferramentas de ataque.

“De qualquer forma, o hacker sempre encontrará um caminho“, conclui o professor de ciência da computação da Universidade da Califórnia, em Berkeley (EUA), Gerald Friedland.

Douglas Rodrigues Aguiar de Oliveira

Douglas Rodrigues Aguiar de Oliveira

Divulgador Científico há mais de 10 anos. Fundador do Universo Racionalista. Consultor em Segurança da Informação e Penetration Tester. Pós-Graduado em Computação Forense, Cybersecurity, Ethical Hacking e Full Stack Java Developer. Endereço do LinkedIn e do meu site pessoal.