Mi-juillet 2024, la mise à jour de CrowdStrike a entraîné un problème mondial affectant de nombreux systèmes Windows, provoquant des pannes généralisées et des plantages du système. Ce blog fournira un compte rendu détaillé de l’incident, de son impact, des détails techniques qui le sous-tendent et des mesures prises pour résoudre le problème.
L’incident
Ce qui s’est passé
-
Version de mise à jour défectueuse : CrowdStrike a publié une mise à jour pour son capteur Falcon, qui est une solution de sécurité des terminaux.
-
Plantages du système : Après la mise à jour, de nombreux systèmes Windows ont commencé à rencontrer des plantages, en particulier des erreurs BSOD (Blue Screen of Death).
Principaux problèmes
-
Problèmes de compatibilité : La cause première du problème a été identifiée comme un problème avec la mise à jour du capteur Falcon. Plus précisément, un fichier nommé ” C-00000291*.sys “dans le `C:\Windows\System32\drivers\CrowdStrike’ le répertoire a provoqué les erreurs BSOD.
-
Conflits au niveau du noyau : La mise à jour a provoqué des conflits au niveau du noyau, ce qui est essentiel pour les opérations du système, entraînant des plantages.
-
Cycles de redémarrage automatique : Les systèmes affectés sont entrés dans des cycles de redémarrage automatique, les rendant inutilisables.
Répercussions
-
Opérations commerciales : De nombreuses entreprises ont connu des perturbations dans leurs opérations quotidiennes en raison de systèmes non fonctionnels.
-
Utilisateurs finaux : Les utilisateurs individuels ont été confrontés à des inconvénients importants, perdant l’accès à leurs systèmes et données.
-
Surcharge du support informatique : Les équipes de support informatique ont été submergées de demandes pour résoudre les problèmes causés par la mise à jour.
Efforts de réponse et d’atténuation de CrowdStrike
-
Actions immédiates : Après avoir identifié le problème, l’équipe d’ingénierie de CrowdStrike a rapidement enquêté sur la cause première. Ils ont découvert que le problème était lié à la dernière mise à jour du capteur Falcon, qui avait provoqué par inadvertance des pannes du système.
-
Annulation des mises à jour : CrowdStrike a rapidement annulé les modifications introduites dans la mise à jour défectueuse pour éviter d’autres dommages. Cette action a permis d’arrêter la propagation du problème à d’autres systèmes.
-
Conseils pour les utilisateurs concernés : Pour les systèmes déjà touchés, CrowdStrike a fourni un ensemble clair d’instructions pour résoudre le problème. Les utilisateurs ont été invités à:
-
Démarrez en mode sans échec : Accédez au système avec un minimum de pilotes et de services.
-
Accédez au fichier problématique : Allez dans le répertoire C:\Windows\System32\drivers\CrowdStrike.
-
Supprimez le fichier défectueux : Localisez et supprimez le fichier nommé C-00000291*.sys.
-
Redémarrez le système : Redémarrez le système normalement.
-
-
Communication et soutien : CrowdStrike a maintenu une communication ouverte avec les clients concernés, en leur fournissant des mises à jour et une assistance par l’intermédiaire de leurs équipes techniques. Ils ont également veillé à ce que les utilisateurs soient informés des mesures prises pour remédier à la situation et ont offert une assistance pour la mise en œuvre des solutions.
-
Améliorations du contrôle de la qualité : Pour prévenir de futurs incidents, CrowdStrike a amélioré ses processus de contrôle de la qualité. Cela inclut des tests plus rigoureux des mises à jour avant le déploiement et la mise en œuvre de garanties supplémentaires pour détecter rapidement les problèmes potentiels.
Mesures préventives
Pour éviter de tels incidents à l’avenir, CrowdStrike a mis en place des mesures de contrôle qualité plus strictes pour leurs mises à jour. De plus, il est conseillé aux utilisateurs de:
-
Sauvegarder régulièrement les données : Assurez-vous que toutes les données critiques sont sauvegardées pour atténuer l’impact de telles pannes.
-
Tester les mises à jour : Avant de déployer des mises à jour sur le réseau, testez-les dans un environnement contrôlé.
-
Surveiller les systèmes : Une surveillance continue peut aider à détecter et à résoudre rapidement les problèmes.
Principaux points à retenir
-
Vigilance dans les mises à jour : Une surveillance régulière et attentive des mises à jour est essentielle pour maintenir l’intégrité du système.
-
Collaboration : Une collaboration efficace entre les fournisseurs de logiciels et les utilisateurs peut faciliter une résolution plus rapide des problèmes.
-
Amélioration continue : Apprendre des incidents et améliorer continuellement les processus de mise à jour et de déploiement peut améliorer la stabilité globale du système.
La mise à jour CrowdStrike qui a provoqué des pannes du système Windows a été une opportunité d’apprentissage essentielle pour l’entreprise et ses utilisateurs. En comprenant les causes premières et en mettant en œuvre des stratégies de résolution efficaces, des incidents similaires peuvent être évités à l’avenir, garantissant une meilleure stabilité et fiabilité de la cybersécurité et des opérations du système.