Por Jackie Snow
Publicado no MIT Technology Review
O malware (uma peça de código malicioso) pode assumir várias formas, como ransomware ou botnets, e está sempre proliferando. Não importa o quanto tentemos, os humanos encarregados de defender nossos computadores estão se afogando em um oceano de ataques cibernéticos. Então, alguns começaram a usar Inteligência Artificial (IA) para ajudá-los a automatizar parte do trabalho.
Mas há um problema: as ferramentas de Aprendizagem de Máquina (Machine Learning) que poderão aliviar sua carga precisam de uma grande quantidade de dados. Não é difícil obter essa grande quantidade de informação para tarefas como visão artificial e processamento de linguagem natural, porque já existem enormes conjuntos de dados de código aberto disponíveis para ensinar coisas, como, por exemplo, qual a aparência de um gato, ou como as palavras se relacionam umas com as outras. No mundo do malware, esse tipo de informação não existia… até agora.
Na semana passada, a empresa de cibersegurança Endgame publicou um grande conjunto de dados de código aberto chamado EMBER (Endgame Malware Benchmark for Research). EMBER é uma coleção de mais de um milhão de representações de pequenos arquivos executáveis do Windows, benignos e malignos, um formato muito comum para esconder malware. Uma equipe da empresa também lançou um software de IA que pode ser treinado com esse conjunto de dados. A ideia é que, para que a IA se torne uma arma poderosa na luta contra o malware, ela precisa saber o que buscar.
As empresas de cibersegurança têm um mar de dados potenciais com os quais eles poderiam treinar seus algoritmos, mas isso é uma faca de dois gumes. Os cibercriminosos que fabricam malware modificam seus códigos constantemente para evitar as mais recentes técnicas de detecção. Isso faz com que o treinamento com exemplos desatualizados de malware seja bastante inútil.
“É como brincar de rato e gato”, lamenta o professor de ciência da computação da Universidade de Maryland (EUA), Charles Nicholas.
E é justamente contra isso que o EMBER tenta lutar. Seu objetivo é ajudar os programas automatizados de cibersegurança a se manterem atualizados.
No lugar de uma coleção de arquivos reais, que poderia infectar o computador de qualquer pesquisador que o usasse, EMBER contém uma espécie de avatar de cada arquivo, ou seja, uma representação digital que dá ao algoritmo uma ideia das características típicas que geralmente contêm os arquivos benignos e malignos, mas sem expor a máquina ao conteúdo malicioso.
Isso deveria ajudar os especialistas em cibersegurança a treinar e testar rapidamente mais algoritmos, além de permitir que eles criem uma Inteligência Artificial mais eficaz e adaptável para a caça do malware.
É claro que o fato de o conjunto de dados EMBER tenha sido publicado abertamente permite que qualquer pessoa o use, o que inclui os próprios cibercriminosos. Os criadores de malware podem usar os dados para projetar sistemas que passem despercebidos por uma Inteligência Artificial treinada com os mesmos dados. O diretor técnico de Ciência de Dados da Endgame, Hyrum Anderson, afirma que eles levaram essa situação em consideração e que ele espera que os benefícios do EMBER superem os riscos. Além disso, os cibercrimes são tão lucrativos que os responsáveis pelos programas maliciosos já estão motivados o suficiente para continuar aperfeiçoando suas ferramentas de ataque.
“De qualquer forma, o hacker sempre encontrará um caminho“, conclui o professor de ciência da computação da Universidade da Califórnia, em Berkeley (EUA), Gerald Friedland.