Empoisonnement des données : Stratégies de prévention pour assurer la sécurité de vos données

La quantité de données générées et intégrées dans les systèmes d’IA a rapidement augmenté au cours des dernières années. Les attaquants profitent de cette augmentation massive du volume de données pour contaminer les données d’entrée dans les ensembles de formation, ce qui entraîne des résultats incorrects ou malveillants. En fait, lors d’une récente conférence à Shanghai, Nicholas Carlini, chercheur scientifique chez Google Brain, a déclaré qu’il est possible d’empoisonner les données de manière efficace en modifiant seulement 0,1 % de l’ensemble de données. De telles découvertes par des experts rendent impératif de mettre en place des mesures qui protègent les données contre les manipulations et modifications par des acteurs malveillants. Ce blog explore différentes stratégies de prévention que vous pouvez employer pour empêcher l’empoisonnement des données.

Qu’est-ce que l’empoisonnement des données ?  

L’empoisonnement des données est une attaque adversariale qui consiste à manipuler des ensembles de données de formation en y injectant des données empoisonnées. Ainsi, un attaquant peut contrôler le modèle, et tout système d’IA formé sur ce modèle produira des résultats erronés. Afin de manipuler le comportement du modèle d’apprentissage automatique (ML) formé et de fournir des résultats faux, l’empoisonnement des données implique l’ajout de données malveillantes ou empoisonnées dans les ensembles de formation.

Comment sont menées les attaques par empoisonnement des données ?  

Si un outil d’IA est formé avec un ensemble de données incorrect, il ne saura pas ce qu’il doit savoir. Les systèmes prendront ces ensembles de données comme des entrées valides, intégrant ces données dans leurs règles de fonctionnement. Cela crée une voie pour que les attaquants polluent les données et compromettent l’ensemble du système.

Regardons de plus près les étapes d’une attaque par empoisonnement des données :

Schéma de flux d’une attaque par empoisonnement des données  

  1. Idéalement, un modèle d’apprentissage automatique formé par un ingénieur autorisé utiliserait des ensembles de données autorisés et fiables. L’objectif de l’attaquant dans cette phase est de s’assurer que le modèle continue de fonctionner sans erreur, même si des données empoisonnées sont ajoutées. Cela permet aux attaquants d’introduire plus facilement des ensembles de données encore plus nuisibles par la suite.
  2. En analysant la manière dont le modèle prend des décisions et fait des prédictions, les attaquants identifient les faiblesses du modèle. Cela les aide à déterminer les points de données probables qui, une fois manipulés, conduiront le modèle à produire des résultats incorrects.
  3. Après avoir trouvé les points faibles, les attaquants créent des échantillons de données adversariales qui ressemblent aux ensembles de données originaux. Ces échantillons de données peuvent amener le modèle à générer de mauvaises prédictions lorsqu’ils sont inclus dans les ensembles de formation.
  4. Les attaquants injectent les données empoisonnées directement dans l’ensemble de formation, ou bien ils compromettent le processus de collecte de données pour les introduire indirectement. L’acte d’injecter directement des données empoisonnées peut être réalisé en compromettant des bases de données et des serveurs de données.
  5. Après l’injection des données empoisonnées, le modèle est réentraîné avec les ensembles de données mis à jour, incluant les échantillons de données malveillants. Au cours du processus de formation, le modèle s’adapte finalement aux données empoisonnées, ce qui conduit à des performances compromises.
  6. Une fois que le modèle a été empoisonné avec succès, il est déployé dans un scénario du monde réel où il interagit avec de nouveaux ensembles de données. Le comportement biaisé du modèle peut alors être facilement exploité par les attaquants pour atteindre leurs objectifs malveillants.

Stratégies d’atténuation pour éviter l’empoisonnement des données  

Afin de s’assurer que les attaques par empoisonnement des données sont atténuées, nous devons nous assurer que les informations sensibles ne sont pas divulguées. Les données divulguées peuvent servir de point d’entrée pour que les attaquants empoisonnent l’ensemble de données. Il est donc important de s’assurer que ces informations sont protégées à tous les points vulnérables. Pour protéger les données sensibles, le modèle de certification de maturité en cybersécurité (CMMC) du Département de la Défense des États-Unis décrit quatre principes cybernétiques de base : protection du réseau, protection des terminaux, protection des installations et protection des personnes.

Le tableau suivant répertorie les fonctions qui doivent être surveillées pour s’assurer que les informations sensibles sont protégées :

Type de protection

Fonctions à surveiller

Protection du réseau

  • Surveiller le trafic réseau pour détecter les connexions inhabituelles.
  • Installez et mettez à jour les pare-feu. Surveillez également les politiques de pare-feu afin de détecter toute modification indésirable apportée par des adversaires.
  • Vérifiez régulièrement la présence d’adresses IP et d’URL suspectes dans le trafic de votre réseau et bloquez-les immédiatement.
  • Surveillez tous les échecs d’authentification et les tentatives d’escalade des privilèges.

Protection des installations

  • Renforcez la sécurité physique des systèmes de votre organisation. Il est essentiel de savoir qui accède à votre espace de travail et à votre réseau.

Protection des terminaux

Les terminaux sont des dispositifs physiques qui comprennent les ordinateurs de bureau, les machines virtuelles, les dispositifs mobiles et les serveurs. Surveillez toute l’activité de ces appareils pour détecter toute activité inhabituelle. Cela inclut (mais n’est pas limité à) :

  • Comportement inhabituel de l’utilisateur.
  • Mauvaises configurations.
  • Téléchargements suspects.

 

Protection des personnes

  • Une formation adéquate doit être dispensée à toute personne utilisant un programme de ML.
  • Appliquer une politique de mot de passe fort pour les utilisateurs du réseau.
  • Sensibiliser les employés aux indicateurs à rechercher pour repérer les tentatives d’hameçonnage.

N’oubliez pas que la contamination des données est un problème majeur dans l’apprentissage automatique (ML) et la cybersécurité. Les organisations qui utilisent des systèmes ML doivent être vigilantes face aux attaques potentielles d’empoisonnement des données et mettre en place des mesures de sécurité robustes pour protéger leurs données et leurs modèles ML contre de tels dangers. La surveillance des modèles, la validation régulière des données et la détection des anomalies font partie des meilleures pratiques pour repérer et prévenir les attaques d’empoisonnement des données.

Une manière de prévenir les entrées malveillantes est de détecter les anomalies. La sécurité et l’intégrité des systèmes informatiques, des réseaux et des applications logicielles en dépendent. ManageEngine Log360 est une solution SIEM unifiée avec des capacités de détection des anomalies. Avec Log360, les analystes de sécurité peuvent :

  • Repérer des comportements déviants d’utilisateurs et d’entités, tels que des connexions à des heures inhabituelles, des échecs de connexion répétés et des suppressions de fichiers depuis un hôte qui n’est généralement pas utilisé par un utilisateur particulier.

  • Obtenir une meilleure visibilité sur les menaces grâce à son évaluation des risques basée sur un score pour les utilisateurs et les entités.

  • Identifier les indicateurs de compromission (IoCs) et les indicateurs d’attaque (IoAs), exposant ainsi des menaces majeures, y compris les menaces internes, les compromissions de comptes, les anomalies de connexion et l’exfiltration de données.

  • Repérer les modifications apportées à la base de données grâce aux rapports d’audit des commandes Data Definition Language et Data Manipulation Language.

Il est également important de surveiller les changements survenant dans les données opérationnelles et la performance. Bien souvent, les données de formation brutes, y compris les images, fichiers audio et textes, sont conservées dans des objets de stockage dans le cloud car ils offrent une solution de stockage plus économique, accessible et évolutive que les solutions sur site. Avec l’aide d’une solution SIEM unifiée intégrée à des capacités de Cloud Access Security Broker (CASB), les analystes de sécurité peuvent :

  • Obtenir une visibilité accrue sur les événements dans le cloud.

  • Faciliter la surveillance des identités dans le cloud.

  • Acquérir des capacités de protection contre les menaces dans le cloud.

  • Faciliter la gestion de la conformité dans le cloud.

De plus, pour mener ces attaques, les attaquants doivent comprendre comment fonctionne le modèle. Ils ont besoin d’un mécanisme de contrôle d’accès puissant pour y parvenir. Il est essentiel de bloquer l’accès aux contrôles d’accès et de les surveiller de près. Log360 inclut un moteur de corrélation sophistiqué capable de combiner en temps réel divers événements survenant dans votre réseau et de déterminer si certains représentent des menaces potentielles ou non.

Les analystes de sécurité peuvent utiliser les stratégies décrites ci-dessus pour éviter de telles attaques.

Vous cherchez des moyens de protéger les informations sensibles de votre organisation contre une mauvaise utilisation ? Inscrivez-vous à une démonstration personnalisée de ManageEngine Log360, une solution SIEM complète qui peut vous aider à détecter, prioriser, enquêter et répondre aux menaces de sécurité.

Vous pouvez également explorer par vous-même avec un essai gratuit et entièrement fonctionnel de 30 jours de Log360.

Source : Data poisoning: Prevention strategies to keep your data safe rédigé par Sangavi Senthil