Le Machine Learning (ML) est une technologie véritablement époustouflante. Le fait même que nous ayons pu développer des modèles d’IA capables d’apprendre et de s’améliorer au fil du temps est remarquable. Grâce à ses incroyables capacités de reconnaissance des formes et de prise de décision, le Machine Learning joue un rôle central dans le paysage technologique mondial, les entreprises de tous les secteurs industriels tirant déjà des avantages ou s’attendant à des avantages potentiels de la mise en œuvre de cette technologie.Mais il n’y a pas que du soleil et des arcs-en-ciel. Comme toute forme de technologie, le ML s’accompagne également de certains risques. Voici quatre des plus importants.
1. Données médiocres ou biaisées
Cela devient un cliché de le dire, mais un modèle de ML ne vaut que ce que valent les données utilisées pour l’entraîner. Les données d’entrée introduites dans le modèle au cours de la phase de formation déterminent la précision de ses résultats lors du déploiement.
Il va donc sans dire que les données d’entrée doivent être des données de haute qualité, précises, exemptes d’erreurs, diverses, variées et dépourvues de bruit (c’est-à-dire des données sans signification ou corrompues qui ne peuvent pas être correctement interprétées par le modèle). Des données « sales » bruitées, inexactes ou trompeuses, en particulier pendant la phase d’apprentissage, peuvent donner lieu à un modèle profondément défectueux à un niveau fondamental, au point qu’il est incapable de remplir l’objectif pour lequel il a été conçu.
Le fait de toujours vérifier l’intégrité de vos données d’apprentissage permet de créer un modèle qui produit des résultats précis et impartiaux.
2. Surajustement
Le surajustement fait référence à une situation indésirable dans laquelle le modèle ML est extrêmement performant avec ses données d’apprentissage, mais ne parvient pas à fournir des résultats précis lorsqu’il est confronté à des données du monde réel. Cela se produit lorsque le modèle détecte des modèles supplémentaires dans les données d’apprentissage. Ces motifs supplémentaires sont généralement des perturbations indésirables qui affectent les capacités prédictives du modèle.
Supposons qu’un modèle de ML soit entraîné à détecter des images de tables. Malheureusement, les données d’apprentissage comprennent un grand nombre d’images contenant également des chaises. Cette inclusion de chaises perturbe le modèle en lui faisant considérer les chaises comme un facteur de classification, ce qui signifie qu’il peut ne pas être en mesure de reconnaître une image de table sans présence de chaise.
Afin d’éviter un surajustement, vous devez vous assurer que les données que vous utilisez sont variées et ne contiennent pas de bruit qui pourrait être interprété à tort comme un autre motif à inclure dans les critères de classification.
3. Machine Learning adversatif
Le Machine Learning adversatif est un type d’attaque qui vise à perturber le fonctionnement d’un modèle d’apprentissage automatique en manipulant les données d’entrée ou même en obtenant un accès non autorisé au modèle lui-même. L’objectif final d’une telle attaque est d’affecter négativement les capacités du modèle, ce qui se traduit par des prédictions erronées et inexactes. Les trois principaux types d’attaques contre l’apprentissage automatique sont les suivants :
- Empoisonnement des données : Cette opération a lieu pendant la phase de formation. L’attaquant ajoute des données erronées ou trompeuses à l’ensemble de données de formation.
- Évasion : Les attaques par évasion sont menées pendant la phase d’inférence, lorsque le modèle de ML a été déployé et qu’il est mis en œuvre sur des données réelles. Dans ce cas, des données manipulées avec juste assez de bruit, imperceptible à l’œil humain mais reconnaissable par le modèle, sont introduites dans le modèle pour l’amener à mal classer les données.
- Inversion : Les attaques par inversion consistent à introduire les résultats d’un modèle de ML dans un autre modèle afin de prédire les données d’entrée. Ceci est particulièrement inquiétant si l’on considère qu’un grand nombre de données d’entrée ont tendance à être très sensibles.
4. Confidentialité des données
Certains modèles ML sont formés sur des données personnelles incroyablement sensibles (par exemple, des informations financières ou médicales), et les organisations qui utilisent ces données sont tenues de se conformer aux réglementations sur la protection des données telles que le GDPR et l’HIPAA.
En outre, comme nous l’avons déjà vu dans le point précédent, il est également possible de reproduire les données d’entraînement d’un modèle de ML en utilisant l’inversion. Une méthode courante pour lutter contre l’inversion de modèle consiste à ajouter du bruit aux données. Malheureusement, comme nous le savons, le bruit peut rendre le modèle moins précis. Il y a cependant des développements positifs à cet égard : une équipe de chercheurs du MIT a développé un cadre pour la protection des données connu sous le nom de Probably Approximately Correct (PAC) Privacy. Ce cadre permet aux développeurs de déterminer la plus petite quantité de bruit nécessaire pour protéger les données tout en maintenant les niveaux de performance. Toutefois, ce cadre n’en est qu’à ses débuts et son efficacité reste à démontrer.
L’avenir du ML comporte de nombreux risques
La ML n’en est encore qu’à ses débuts, et les organisations continuent d’expérimenter et d’explorer ses possibilités. Les risques que nous avons mentionnés ci-dessus ne font qu’effleurer la surface ; à mesure que cette technologie continue de se développer, il faut s’attendre à l’émergence de nombreuses autres menaces. Outre le développement des fonctions primaires de ML, le moment est venu pour les organisations d’investir dans le renforcement de leurs modèles de ML afin de se protéger contre toutes les menaces, existantes et futures.