Empoisonnement des données : Stratégies de prévention pour assurer la sécurité de vos données

La quantité de données générées et introduites dans les systèmes d’intelligence artificielle a augmenté rapidement au cours des dernières années. Les attaquants profitent de l’augmentation massive du volume de données pour contaminer les données introduites dans les ensembles de données d’entraînement, ce qui entraîne des résultats incorrects ou malveillants. En fait, lors d’une récente conférence à Shanghai, Nicholas Carlini, chercheur scientifique chez Google Brain, a déclaré que l’empoisonnement des données peut être réalisé efficacement en modifiant seulement 0,1 % de l’ensemble de données.

Ces conclusions d’experts rendent impérative la mise en œuvre de mesures visant à protéger les données contre les manipulations et les modifications par les acteurs de la menace. Ce blog explore les différentes stratégies de prévention que vous pouvez employer pour empêcher l’empoisonnement des données.

Qu’est-ce que l’empoisonnement des données ?

L’empoisonnement des données est une attaque adverse qui consiste à manipuler des ensembles de données de formation en y injectant des données empoisonnées. De cette manière, un attaquant peut contrôler le modèle, et tout système d’IA formé sur ce modèle fournira des résultats erronés. Afin de manipuler le comportement du modèle d’apprentissage machine (ML) formé et de fournir de faux résultats, l’empoisonnement des données consiste à ajouter des données malveillantes ou empoisonnées dans les ensembles de données d’apprentissage.

Qu'est-ce que l'empoisonnement des données ?

Comment ces attaques sont-elles menées ?

Si un outil d’IA est formé avec un ensemble de données incorrect, il ne saura pas ce qu’il doit savoir. Les systèmes prendront ces ensembles de données comme des entrées valides, incorporant ces données dans les règles du système. Les attaquants peuvent ainsi polluer les données et compromettre l’ensemble du système.

Examinons de plus près les étapes d’une attaque par empoisonnement de données :

Comment les attaques par empoisonnement de données sont-elles menées ?

1. Idéalement, un modèle de ML formé par un ingénieur autorisé utiliserait des ensembles de données autorisés et dignes de confiance. L’objectif de l’attaquant dans cette phase est de s’assurer que le modèle continue à fonctionner sans erreur, même si des données empoisonnées sont ajoutées. Il est ainsi plus facile pour les attaquants d’introduire ultérieurement des ensembles de données plus mortels.

2.En analysant la manière dont le modèle prend des décisions et fait des prédictions, les attaquants identifient les faiblesses du modèle. Cela les aidera à connaître les points de données probables qui, lorsqu’ils sont manipulés, conduiront le modèle à produire des résultats incorrects.

3.Une fois que les attaquants ont trouvé les points faibles, ils créent des échantillons de données contradictoires qui ressemblent aux ensembles de données d’origine. Ces échantillons de données peuvent conduire le modèle à générer des prédictions erronées lorsqu’ils sont inclus dans les ensembles de données d’apprentissage.

4.Les attaquants injectent directement les données empoisonnées dans l’ensemble de données d’apprentissage ou compromettent le processus de collecte des données pour les introduire indirectement. L’injection directe de données empoisonnées peut être réalisée en compromettant des bases de données et des serveurs de données.

5.Après l’injection des données empoisonnées, le modèle est réentraîné avec les ensembles de données mis à jour, qui incluent les échantillons de données malveillantes. Au cours du processus de formation, le modèle finit par s’adapter aux données empoisonnées, ce qui compromet ses performances.

6.Une fois que le modèle a été empoisonné avec succès, il est déployé dans le monde réel où il interagit avec de nouveaux ensembles de données. Le comportement biaisé du modèle peut être facilement exploité par les attaquants pour atteindre leurs objectifs malveillants.

Stratégies d’atténuation pour éviter l’empoisonnement des données

Afin de s’assurer que les attaques par empoisonnement de données sont atténuées, nous devons veiller à ce que les informations sensibles ne soient pas divulguées. Les données divulguées peuvent servir de point d’entrée aux attaquants pour empoisonner l’ensemble des données. Il est donc important de s’assurer que ces informations sont protégées à tous les points vulnérables. Pour assurer la sécurité des données sensibles, le modèle de certification de la maturité cybernétique (CMMC) du ministère de la défense définit quatre principes cybernétiques de base. Il s’agit de la protection du réseau, de la protection des terminaux, de la protection des installations et de la protection des personnes.

Le tableau suivant énumère les fonctions qui doivent être surveillées pour s’assurer que les informations sensibles sont protégées:

Type de protection

Fonctions à surveiller

Protection du réseau

  • Surveiller le trafic réseau pour détecter les connexions inhabituelles.
  • Configurer et mettre à jour les pare-feu. Surveillez également les politiques de pare-feu afin de détecter toute modification indésirable apportée par des adversaires.
  • Vérifiez régulièrement la présence d’adresses IP et d’URL suspectes dans votre trafic réseau et bloquez-les immédiatement.
  • Surveillez tous les échecs d’authentification et les tentatives d’escalade des privilèges.

Protection des installations

  • Renforcez la sécurité physique des systèmes de votre organisation. Il est essentiel de savoir qui accède à votre espace de travail et à votre réseau.

Protection des terminaux

Les terminaux sont des dispositifs physiques qui comprennent les ordinateurs de bureau, les machines virtuelles, les dispositifs mobiles et les serveurs. Surveillez l’activité de ces appareils pour détecter toute activité inhabituelle. Cela inclut (mais n’est pas limité à) :

  • Un comportement inhabituel de l’utilisateur.
  • Mauvaises configurations.
  • Téléchargements suspects.

 

Protection des personnes

  • Toute personne utilisant un programme de ML doit recevoir une formation adéquate.
  • Appliquer une politique de mot de passe fort pour les utilisateurs du réseau.
  • Former les employés aux indicateurs à rechercher pour repérer les tentatives de phishing.

N’oubliez pas que la contamination des données est un problème majeur en matière de ML et de cybersécurité. Les organisations qui utilisent des systèmes de ML doivent être à l’affût des attaques potentielles d’empoisonnement des données et mettre en place des mesures de sécurité solides pour protéger leurs données et leurs modèles de ML contre de tels dangers. La surveillance des modèles, la validation systématique des données et la détection des anomalies sont quelques-unes des meilleures pratiques pour repérer et déjouer les attaques par empoisonnement des données.

La détection des anomalies est l’un des moyens de prévenir les intrants malveillants. La sécurité et l’intégrité des systèmes informatiques, des réseaux et des applications logicielles en dépendent. ManageEngine Log360 est une solution SIEM unifiée dotée de fonctions de détection des anomalies. Avec Log360, les analystes de la sécurité peuvent :

  • Repérer les comportements déviants des utilisateurs et des entités, tels que les connexions à une heure inhabituelle, les échecs de connexion excessifs et les suppressions de fichiers à partir d’un hôte qui n’est généralement pas utilisé par un utilisateur particulier.
  • Obtenir une meilleure visibilité sur les menaces grâce à l’évaluation des risques basée sur des scores pour les utilisateurs et les entités.
  • Identifiez les indicateurs de compromission (IoC) et les indicateurs d’attaque (IoA), en exposant les principales menaces, notamment les menaces internes, la compromission de comptes, les anomalies de connexion et l’exfiltration de données.
  • Repérer les modifications apportées à la base de données grâce aux rapports d’audit du langage de définition des données et du langage de manipulation des données.

Il est également important de vérifier les changements qui interviennent dans les données et les performances opérationnelles. Souvent, les données brutes de formation – y compris les images, les fichiers audio et le texte – sont conservées dans des magasins d’objets en cloud car ils offrent un stockage plus abordable, plus facilement accessible et plus évolutif que les solutions de stockage sur site. Avec l’aide d’une solution SIEM unifiée intégrée à des capacités de courtier de sécurité d’accès au cloud (CASB), les analystes de la sécurité peuvent :

  • Obtenir une meilleure visibilité sur les événements dans le cloud.
  • Faciliter la surveillance des identités dans le cloud.
  • Obtenir des capacités de protection contre les menaces dans le cloud.
  • Faciliter la gestion de la conformité dans le cloud.

En outre, pour mener à bien ces attaques, les attaquants doivent comprendre le fonctionnement du modèle. Pour ce faire, ils ont besoin d’un mécanisme de contrôle d’accès solide. Il est essentiel de bloquer l’accès aux contrôles d’accès et de les surveiller de près. Log360 comprend un moteur de corrélation sophistiqué qui peut combiner divers événements se produisant dans votre réseau en temps réel et déterminer s’il s’agit de menaces potentielles ou non.

Les analystes de la sécurité peuvent utiliser les stratégies décrites ci-dessus pour éviter des attaques de ce type.

Vous cherchez des moyens de protéger les informations sensibles de votre organisation contre toute utilisation abusive ? Inscrivez-vous pour une démo personnalisée de ManageEngine Log360, une solution SIEM complète qui peut vous aider à détecter, prioriser, enquêter et répondre aux menaces de sécurité.

Vous pouvez également explorer par vous-même avec une version d’essai gratuite de 30 jours de Log360.