O volume de dados gerados e inseridos nos sistemas de IA aumentou rapidamente nos últimos anos. Os invasores estão aproveitando o aumento maciço do volume de dados para contaminar a entrada de dados nos conjuntos de dados de treinamento, resultando em resultados incorretos ou mal-intencionados.

De fato, em uma recente conferência em Xangai, Nicholas Carlini, cientista pesquisador do Google Brain, afirmou que o envenenamento de dados pode ser realizado de forma eficiente modificando apenas 0,1% do conjunto de dados.

Essas descobertas de especialistas torna fundamental a implementação de medidas que protejam os dados contra manipulações e modificações por agentes de ameaças. Neste artigo, vamos explorar diferentes estratégias de prevenção que você pode empregar para evitar o envenenamento de dados.

O que é envenenamento de dados?  

O envenenamento de dados é um ataque adversário que envolve a manipulação de conjuntos de dados de treinamento por meio da injeção de dados envenenados. Dessa forma, um invasor pode controlar o modelo, e qualquer sistema de IA treinado nesse modelo fornecerá resultados falsos.

Para manipular o comportamento do modelo de machine learning (ML) treinado e fornecer resultados falsos, o envenenamento de dados implica adicionar dados maliciosos ou envenenados aos conjuntos de dados de treinamento.

Imagem com fundo azul. Do lado esquerdo há uma figura de uma mão de rôbo azul, ela está despejando algo que simboliza veneno para associar ao envenenamento de dados. Abaixo desta imagem está escrito Envenenado na cor roxa. Acima desta figura há o logo da ManageEngine na cor branca. Do meio para a direita há vários ícones como um cérebro com elementos de tecnologia, dados, cibercriminosos, laptop com uma digital grande na tela e servidore. Eles formam um caminho para indicar o envenenamento de dados.

 

Como acontecem os ataques de envenenamento de dados? 

Se uma ferramenta de IA for treinada com um conjunto de dados incorreto, ela não saberá o que, de fato, precisa saber. Os sistemas tomarão esses conjuntos de dados como entradas válidas, incorporando esses dados às regras do sistema. Isso cria um caminho para que os invasores contaminem os dados e comprometam todo o sistema.

Vamos dar uma olhada mais de perto nos estágios de um ataque de envenenamento de dados:

Imagem com fundo azul com vários elementos. Uma figura representando um cibercrimonoso segurando um laptop (comprometere o treinamento inicial), um desenho de um gráfico com uma lupa (identificar pontos fracos), duas pessoas sentadas conversando ( gerar dados envenenados), uma figura de uma mulher com dor de cabeça (injetar os dados envenenados), ícones de dados ("retreinamento" do modelo), uma figura executando um ataque (executar o ataque). Ao lado dessas imganes há uma figura maior de um laptop apagado com um caveira roxa.

  1. Idealmente, um modelo de ML treinado por um engenheiro autorizado usaria conjuntos de dados autorizados e confiáveis. O objetivo do invasor nessa fase é garantir que o modelo continue a funcionar sem erros, mesmo que dados envenenados sejam adicionados. Isso é feito para facilitar aos invasores a introdução de conjuntos de dados mais letais posteriormente.

  1. Ao analisar como o modelo toma decisões e faz previsões, os invasores identificam os pontos fracos. Isso os ajudará a conhecer os prováveis pontos de dados que, quando manipulados, levarão o modelo a produzir resultados incorretos.

  1. Depois que os invasores encontram os pontos fracos, eles criam amostras de dados contraditórios que são semelhantes aos conjuntos de dados originais. Essas amostras de dados podem levar o modelo a gerar previsões erradas quando são incluídas nos conjuntos de dados de treinamento.

  1. Os invasores injetam os dados envenenados diretamente no conjunto de dados de treinamento ou comprometem o processo de coleta de dados para introduzi-los indiretamente. O ato de injetar diretamente dados envenenados pode ser realizado comprometendo bancos de dados e servidores de dados.

  1. Depois de injetar os dados envenenados, o modelo é treinado novamente com os conjuntos de dados atualizados, que incluem as amostras de dados maliciosos. Durante o processo de treinamento, o modelo acaba se adaptando aos dados envenenados e isso, por sua vez, leva ao comprometimento do desempenho.

  1. Depois que o modelo foi envenenado com sucesso, ele é implantado no cenário do mundo real, onde interage com novos conjuntos de dados. O comportamento tendencioso do modelo pode ser facilmente explorado pelos invasores para atingir seus objetivos maliciosos.

Estratégias de mitigação para evitar envenenamento de dados  

Para garantir que os ataques de envenenamento de dados sejam atenuados, devemos assegurar que não haja vazamento de informações confidenciais. Os dados vazados podem servir como ponto de entrada para os invasores envenenarem o conjunto de dados.

Portanto, é importante garantir que essas informações sejam protegidas em todos os pontos vulneráveis. Para manter os dados confidenciais seguros, o Modelo de Certificação de Maturidade Cibernética (CMMC) do Departamento de Defesa descreve quatro princípios cibernéticos básicos. Esses princípios incluem a proteção da rede, a proteção dos terminais, a proteção das instalações e a proteção das pessoas.

A tabela a seguir lista as funções que precisam ser monitoradas para garantir que as informações confidenciais sejam protegidas:

Tipo  de  proteção

Funções que precisam ser monitoradas

Proteção de rede

  • Monitore o tráfego de rede em busca de conexões incomuns.

  • Verifique regularmente se há endereços IP e URLs suspeitos no tráfego de sua rede e bloqueie-os imediatamente.

Proteção das instalações

  • Fortaleça a segurança física dos sistemas de sua organização. É fundamental estar ciente de quem acessa seu espaço de trabalho e sua rede.

Proteção de endpoints

Endpoints são dispositivos físicos, que incluem seus computadores desktop, máquinas virtuais, dispositivos móveis e servidores. Monitore todas as atividades nesses dispositivos em busca de qualquer atividade incomum. Isso inclui (mas não se limita a):

  • Comportamento incomum do usuário.

  • Configurações incorretas.

  • Downloads suspeitos.

 

Proteção das pessoas

  • Forneça um treinamento adequado a todos os usuários de um programa de ML (machine learning).

  • Aplique uma política de senha forte para os usuários da rede.

  • Instrua os colaboradores sobre os indicadores a serem observados para identificar tentativas de phishing.

Lembre-se de que a contaminação de dados é um problema grave no ML e na segurança cibernética. As organizações que empregam sistemas de ML devem estar atentas a possíveis ataques de envenenamento de dados e adotar medidas de segurança sólidas para proteger seus dados contra esses perigos.

O monitoramento de modelos, a validação de dados de rotina e a detecção de anomalias são algumas das práticas recomendadas para detectar e impedir ataques de envenenamento de dados.

Uma maneira de evitar entradas mal-intencionadas é detectar anomalias. A segurança e a integridade dos sistemas de computador, das redes e das aplicações de software dependem disso. O Log360 da ManageEngine é uma solução SIEM unificada com recursos de detecção de anomalias. Com a nossa solução, os analistas de segurança podem:

  • Identificar comportamentos anômalos de usuários e entidades, como logons em horários incomuns, falhas excessivas de logon e exclusões de arquivos de um host que geralmente não é usado por um determinado usuário.

  • Obter maior visibilidade das ameaças com sua avaliação de risco baseada em pontuação para usuários e entidades.

  • Identificar indicadores de comprometimento (IoCs) e indicadores de ataque (IoAs), expondo as principais ameaças, incluindo ameaças internas, comprometimento de contas, anomalias de logon e exfiltração de dados.

  • Identificar alterações no banco de dados por meio de relatórios de auditoria da Linguagem de Definição de Dados e da Linguagem de Manipulação de Dados.

Também é importante verificar as mudanças que estão ocorrendo nos dados operacionais e no desempenho. Muitas vezes, os dados brutos de treinamento – incluindo imagens, arquivos de áudio e texto – são mantidos em armazenamentos de objetos na nuvem porque oferecem armazenamento mais econômico, prontamente acessível e dimensionável do que as soluções de armazenamento no local. Com a ajuda de uma solução SIEM unificada e integrada aos recursos do CASB (Cloud Access Security Broker), os analistas de segurança podem:

  • Obter maior visibilidade dos eventos da nuvem.

  • Facilitar o monitoramento de identidade na nuvem.

  • Obter recursos de proteção contra ameaças na nuvem.

  • Facilitar o gerenciamento de conformidade na nuvem.

Além disso, para realizar esses ataques, os invasores precisam entender como o modelo funciona. Para isso, eles precisam de um forte mecanismo de controle de acesso. É essencial bloquear o acesso aos controles de acesso e ficar de olho neles.

O Log360 inclui um mecanismo de correlação sofisticado que pode combinar vários eventos que ocorrem em sua rede em tempo real e determinar se algum deles é uma possível ameaça ou não.

Os profissionais da segurança cibernética podem usar as estratégias descritas acima para evitar ataques como esses.

Você está procurando maneiras de proteger as informações confidenciais da sua organização contra o uso indevido? Inscreva-se para uma demonstração personalizada do Log360, nossa solução SIEM abrangente que vai ajudar a detectar, priorizar, investigar e responder a ameaças à segurança.

Você também pode explorar nossa ferramenta fazendo o download de uma avaliação gratuita de 30 dias!

Autor: Sangavi Senthil