Les pannes de réseau sont devenues une réalité redoutée, qui perturbe les entreprises, la vie personnelle et les canaux de communication. Bien qu’aucun réseau ne soit à l’abri de cet événement malheureux, la récente panne des télécommunications australiennes nous rappelle brutalement l’impact que de telles perturbations peuvent avoir. Cette panne, qui a duré plusieurs heures, a perturbé à l’échelle nationale les entreprises australiennes, les services essentiels et la vie quotidienne.
Cet exemple met en évidence la nature complexe des réseaux de télécommunications modernes et le risque de perturbations. Même avec l’infrastructure la plus sophistiquée et de solides mesures de redondance en place, des événements imprévus tels que des pépins logiciels, des pannes matérielles ou des catastrophes naturelles peuvent mettre les réseaux hors service.
Les interruptions de réseau peuvent arriver aux meilleurs d’entre nous. Voici donc un aperçu des causes de ces pannes et des moyens de protéger votre réseau.
Comprendre la cause primaire de la panne des télécommunications en Australie
La cause primaire de la panne était une interaction complexe de problèmes techniques, principalement centrés sur une mise à jour logicielle et les informations de routage excessives qu’elle a introduites.
-
Un excès d’informations de routage déstabilise le protocole BGP (Border Gateway Protocol).
La cause primaire de la panne provient de changements effectués au cours d’une mise à jour logicielle de routine. Plus précisément, ces changements ont déconnecté par inadvertance un routeur central, ce qui a introduit une quantité excessive d’informations de routage dans le réseau de télécommunications. L’excès d’informations de routage a rendu le BGP instable.
-
Routeurs surchargés et seuils de sécurité
Le problème de routage a imposé une charge énorme aux principaux routeurs du réseau de l’opérateur de télécommunications. Ces routeurs, chargés de traiter et de gérer de grandes quantités de données de routage, ont été submergés et ont dépassé les seuils de sécurité prédéfinis. Ces seuils définissent les limites acceptables pour la quantité de données de routage pouvant être traitées par les routeurs du réseau.
-
Configuration par défaut du routeur et mécanismes de protection En réponse au dépassement des seuils de sécurité, environ 90 routeurs de périphérie de fournisseur (PE) concernés ont activé un mécanisme de protection par défaut du fournisseur, se déconnectant du réseau central IP du fournisseur de télécommunications. Ce mécanisme d’auto-isolation a effectivement coupé la capacité des routeurs à participer à l’acheminement des données, ce qui a entraîné une interruption de la connectivité du réseau.
-
Les défaillances en cascade ont un impact sur l’ensemble de l’infrastructure du réseau La déconnexion de ces routeurs critiques, en particulier ceux responsables de l’acheminement du réseau central, a déclenché une panne en cascade, provoquant une perturbation généralisée de l’ensemble de l’infrastructure de télécommunications.
Qu’est-ce qui prolonge les temps d’arrêt du réseau ?
Le rétablissement des pannes de réseau massives peut s’avérer une entreprise complexe et longue. Les facteurs clés qui peuvent exacerber des situations telles que la panne de télécommunications en Australie et prolonger le processus de restauration sont les suivants :
-
Manque de robustesse : Dans les problèmes de routage IP tels que ceux décrits ci-dessus, les réseaux ont besoin de garanties suffisantes pour éviter qu’un afflux aussi important d’informations de routage ne surcharge les routeurs.
-
Surveillance inadéquate : En l’absence de systèmes efficaces de surveillance du réseau permettant de détecter rapidement le problème, les administrateurs de réseau peuvent être confrontés à des retards dans l’identification de la cause primaire et dans la mise en œuvre d’actions correctives.
-
Restauration manuelle : Sans outils de gestion de la configuration, le processus de restauration peut impliquer la reconfiguration manuelle des routeurs concernés, ce qui prend du temps et nécessite une main-d’œuvre importante.
7 bonnes pratiques pour protéger votre réseau contre les pannes de courant
Si les pannes de réseau sont une réalité regrettable, les individus et les organisations peuvent prendre des mesures pour en minimiser l’impact. Voici sept éléments clés à prendre en compte :
-
Mettre en place un système robuste de surveillance du réseau : Un système complet de surveillance du réseau offre une visibilité et un contrôle centralisés sur votre infrastructure réseau. Il vous permet de surveiller les performances du réseau, d’identifier les problèmes potentiels et de prendre rapidement des mesures correctives.
-
Établir des procédures claires de gestion de la configuration : Cela comprend le contrôle des versions, la gestion des changements et la documentation. Une bonne gestion de la configuration permet d’éviter les modifications non autorisées et de garantir la cohérence des configurations sur l’ensemble du réseau.
Soyez attentifs aux configurations par défaut de vos routeurs et prenez des mesures en conséquence pour éviter les problèmes lorsque des mises à jour sont déployées dans votre infrastructure de réseau. Par exemple, pour éviter l’auto-isolement du routeur, les administrateurs réseau peuvent créer des règles de conformité dans ManageEngine Network Configuration Manager pour s’assurer que la configuration maximale du préfixe (c’est-à-dire le seuil de sécurité) n’enregistre qu’un message d’avertissement et n’isole pas complètement le routeur.
3. Ingénierie du trafic et planification de la capacité :
Utiliser des techniques d’ingénierie du trafic pour gérer efficacement le trafic du réseau et s’assurer que les routeurs peuvent gérer les pics de charge et les pointes inattendues du trafic de données. Il s’agit d’analyser les schémas de trafic, d’identifier les goulets d’étranglement potentiels et de mettre en œuvre des mécanismes de contrôle de la congestion. Effectuer des exercices de planification de la capacité pour s’assurer que l’infrastructure du réseau peut supporter la croissance anticipée et les demandes de trafic.
4. Mettre en œuvre un plan complet de sauvegarde et de récupération :
Ce plan garantit que vous pouvez rapidement remettre votre réseau en état de fonctionnement en cas de panne ou de catastrophe. Ce plan doit comprendre des sauvegardes régulières des données critiques, des procédures de restauration des configurations et de l’automatisation du réseau, ainsi qu’un processus de test des procédures de récupération.
5. Configuration et dépannage BGP : Mettre en œuvre des pratiques rigoureuses de gestion de la configuration pour BGP, en veillant à la redistribution correcte des routes, à la prévention des boucles et au filtrage des communautés. Maintenir à jour les connaissances sur les vulnérabilités du BGP et mettre en œuvre les mesures d’atténuation appropriées pour se protéger contre les attaques de routage.
6. Infrastructure de réseau redondante : Concevoir et mettre en œuvre une infrastructure de réseau redondante, y compris plusieurs routeurs centraux, pour assurer la résilience contre les défaillances et permettre une reprise plus rapide en cas de panne. Cela inclut la redondance au niveau des appareils, des liaisons et des chemins d’accès afin de garantir une connectivité continue en cas de perturbation du matériel ou du réseau. Les administrateurs de réseau devraient également permettre l’utilisation de divers supports de communication pour la gestion et la communication du réseau.
7. Procéder à des évaluations régulières du réseau et à des analyses de vulnérabilité : Des évaluations régulières du réseau et des analyses de vulnérabilité peuvent aider à identifier les faiblesses et les vulnérabilités de l’infrastructure du réseau qui pourraient être exploitées par des hackers ou conduire à des pannes accidentelles. Ces évaluations devraient couvrir les aspects de sécurité physique et logique de votre réseau.
Même les réseaux les plus performants peuvent être victimes de problèmes de routage et de configuration, et la panne des télécommunications en Australie en est un exemple qui donne à réfléchir. Les vulnérabilités des infrastructures de réseau modernes font qu’il est impératif pour les entreprises de renforcer leur infrastructure de réseau contre les accidents. La mise en œuvre d’un système complet de surveillance du réseau, de procédures claires de gestion de la configuration, d’ingénierie du trafic et de planification de la capacité est primordiale.
ManageEngine OpManager Plus est une solution puissante qui permet d’améliorer la résilience du réseau et d’atténuer les risques. Garantissez une connectivité ininterrompue et un rétablissement rapide en cas de problèmes inattendus. Contactez dès aujourd’hui nos experts produits pour une démonstration rapide des capacités.
Source : Decoding routing outages: 7 tips for safeguarding your network connectivity by Sharon Abraham Ratna