Las caídas de red se han convertido en una temida realidad. Afectan a los negocios y canales de comunicación. Ninguna red es inmune a este desafortunado evento. La reciente caída de las telecomunicaciones en Australia sirve como un claro recordatorio de sus repercusiones. La caída de red —que duró varias horas— causó afectaciones a nivel nacional en las compañías, los servicios esenciales y la vida diaria.
Este ejemplo pone de relieve la naturaleza compleja de las redes modernas de telecomunicaciones y la posibilidad de que se produzcan interrupciones. Incluso con la infraestructura más sofisticada y las medidas de redundancia más sólidas, los eventos imprevistos —tales como fallas de software, fallas de hardware o desastres naturales— pueden hacer que las redes se vean afectadas.
Las interrupciones de la red pueden suceder a los mejores de nosotros. He aquí hay un vistazo a lo que causa tales caídas y cómo proteger su red.
Entendiendo la causa raíz de la caída de las telecomunicaciones en Australia
La causa principal de la caída fue una compleja combinación entre problemas técnicos, centrados principalmente en una actualización de software, y la excesiva información de enrutamiento que introdujeron.
∙ La excesiva información de enrutamiento desestabiliza el Protocolo Border Gateway (BGP)
La causa raíz de la caída se derivó de los cambios realizados durante una actualización de software de rutina. Específicamente, estos cambios desconectaron inadvertidamente un router central. Esto introdujo una cantidad excesiva de información de enrutamiento en la red de telecomunicaciones. Esto hizo que el BGP se volviera inestable.
∙ Routers abrumados y umbrales de seguridad
El problema de enrutamiento colocó una inmensa carga en los routers clave dentro de la red del proveedor de telecomunicaciones. Dichos routers, encargados de procesar y gestionar las grandes cantidades de datos de enrutamiento, se vieron abrumados y superaron los umbrales de seguridad preestablecidos. Dichos umbrales definen límites aceptables para la cantidad de datos de enrutamiento que pueden ser procesados por los routers de la red.
∙ Configuración predeterminada del router y mecanismos de protección
En respuesta a los umbrales de seguridad excedidos, alrededor de 90 routers Provider Edge (PE) afectados activaron un mecanismo de protección predeterminado del proveedor desconectándose de la red IP principal del proveedor de telecomunicaciones. Este mecanismo de autoaislamiento acabó efectivamente con la capacidad de los routers para participar en los datos de enrutamiento, lo que causó una interrupción en la conectividad de red.
∙ El fallo en cascada afecta a toda la infraestructura de la red
La desconexión de estos routers críticos, en particular los responsables del enrutamiento de la red central, desencadenó un fallo en cascada. Esto causó una interrupción generalizada en toda la infraestructura de telecomunicaciones.
¿Qué prolonga el tiempo de inactividad de la red?
La restauración después de caídas de red masivas puede ser una tarea compleja y lenta. Estos son algunos de los factores clave que pueden exacerbar situaciones como la caída de las telecomunicaciones en Australia y prolongar el proceso de restauración:
∙ Falta de robustez: en los mencionados problemas de enrutamiento IP, las redes requieren de suficientes medidas de seguridad para evitar que una afluencia tan grande de información de enrutamiento sobrecargue los routers.
∙ Monitoreo inadecuado: sin sistemas eficaces de monitoreo de red para detectar el problema rápidamente, los administradores de red pueden enfrentar retrasos a la hora de identificar la causa raíz e iniciar acciones correctivas.
∙ Restauración manual: sin herramientas de gestión de configuración, el proceso de restauración podría implicar la reconfiguración manual de los routers afectados. Esto consume mucho tiempo y requiere bastante mano de obra.
Siete mejores prácticas para proteger su red de caídas
Si bien las caídas de red son una realidad desafortunada, hay pasos que los individuos y las organizaciones pueden tomar para minimizar su impacto. Aquí hay siete consideraciones clave:
-
Implementar un sistema de monitoreo de red robusto: un sistema integral de monitoreo de red proporciona visibilidad y control centralizados sobre su infraestructura de red. Le permite monitorear el rendimiento de la red, identificar posibles problemas y tomar medidas correctivas con prontitud.
-
Establecer procedimientos claros de gestión de la configuración: esto incluye control de versiones, gestión de cambios y documentación. La gestión de la configuración adecuada ayuda a evitar cambios no autorizados y garantiza que las configuraciones sean coherentes en toda la red.
Tenga en cuenta las configuraciones predeterminadas de los proveedores de sus routers y tome las medidas correspondientes para evitar problemas cuando se implementen actualizaciones en su infraestructura de red. Por ejemplo, para evitar el autoaislamiento del router, los administradores de red pueden crear reglas de cumplimiento en ManageEngine Network Configuration Manager para asegurarse de que la configuración máxima de prefijos —es decir, el umbral de seguridad— solo registre un mensaje de advertencia y no aísle completamente el router.
3. Ingeniería de tráfico y planificación de capacidad: utilice técnicas de ingeniería de tráfico para gestionarlo de manera efectiva y garantizar que los routers puedan manejar las cargas pico y los aumentos inesperados en el tráfico de datos. Esto implica analizar los patrones de tráfico, identificar posibles cuellos de botella e implementar mecanismos de control de congestión. Realice ejercicios de planificación de la capacidad para garantizar que la infraestructura de red pueda soportar el crecimiento anticipado y las demandas de tráfico.
4. Implementar un plan integral de respaldo y recuperación: esto garantiza que pueda restaurar rápidamente su red a un estado previo en caso de una caída o un desastre. Este plan debe incluir copias de seguridad regulares de datos críticos, procedimientos para restaurar configuraciones de red y automatización, y un proceso para probar sus procedimientos de recuperación.
5. Configuración de BGP y solución de problemas: implemente prácticas rigurosas de gestión de configuración para BGP. Esto garantiza la redistribución adecuada de rutas, la prevención de bucles y el filtrado de comunidad. Manténgase actualizado sobre las vulnerabilidades de BGP e implemente medidas de mitigación adecuadas para protegerse contra ataques de enrutamiento.
6. Infraestructura de red redundante: diseñe e implemente una infraestructura de red redundante, incluyendo routers de múltiples núcleos, para resistir ante fallas y permitir una recuperación más rápida en caso de interrupciones. Esto incluye redundancia a nivel de dispositivo, enlace y ruta para garantizar una conectividad continua frente a interrupciones de hardware o red. Los administradores de red también deben habilitar diversas opciones de portadores de comunicación para la gestión de redes y la comunicación.
7. Realizar evaluaciones de red y escaneos de vulnerabilidad regularmente: programar evaluaciones de red y análisis de vulnerabilidades regularmente puede ayudar a identificar debilidades y vulnerabilidades en la infraestructura de red que podrían ser explotadas por los atacantes o provocar interrupciones accidentales. Estas evaluaciones deben cubrir los aspectos de seguridad física y lógica de su red.
Incluso las mejores redes de su clase pueden ser víctimas de problemas de enrutamiento y configuración. La caída de telecomunicaciones en Australia es un claro ejemplo de ello. Las vulnerabilidades dentro de las infraestructuras de red modernas hacen que sea imperativo para las empresas fortalecer su infraestructura de red ante los contratiempos. Es primordial implementar un sistema integral de monitoreo de red, procedimientos claros de gestión de configuración, ingeniería de tráfico y planificación de la capacidad.
Una potente solución para mejorar la resiliencia de la red y mitigar los riesgos es ManageEngine OpManager Plus. Garantice una conectividad ininterrumpida y una rápida recuperación ante problemas inesperados. Contacte a nuestros expertos en productos para realizar un rápido recorrido por las funciones hoy mismo.