5 lecciones aprendidas sobre la reciente interrupción de CrowdStrike
Postado por Chris Drumgoole, Director Ejecutivo de Servicios de Nube e Infraestructura y Seguridad de DXC Technology em 13/08/2024 em ArtículoExpertos en TI han calificado la pasada situación de CrowdStrike como la mayor interrupción en la historia. Afortunadamente, hay formas de minimizar el impacto que una interrupción como esta puede tener en un negocio.
Por Chris Drumgoole, Director Ejecutivo de Servicios de Nube e Infraestructura y Seguridad de DXC Technology. Foto: cortesía. Portal ERP México.
Muchas de las compañías más grandes del mundo enfrentaron una serie de dificultades el mes pasado cuando una actualización de software defectuosa paralizó las operaciones de cientos de aerolíneas, bancos, agencias gubernamentales y minoristas que operan con el sistema operativo Windows. Entendemos el impacto que el tiempo de inactividad del sistema puede tener en un negocio, y algunos expertos en TI han calificado la situación de CrowdStrike como la mayor interrupción en la historia.
Afortunadamente, hay formas de minimizar el impacto que una interrupción importante como esta puede tener en un negocio.
Tal vez te interese: 6 razones por las que la protección en la nube debe ser imperativa
Aquí hay algunas conclusiones clave a considerar:
1 - La planificación de contingencia es crítica
A medida que se restaura el servicio, han surgido discusiones en toda la industria sobre vulnerabilidades, salvaguardas de datos, el impacto en las cadenas de suministro y otros problemas. Por ejemplo, en DXC Technology reunimos un equipo una hora después de que se conociera la interrupción para comenzar a operar como comando y control, y comenzamos con un plan basado en experiencias previas.
En situaciones como esta, simplemente no se puede hacer todo a la vez. La priorización es clave, enfocándose en lo más crítico para el negocio y reparando eso primero. Las organizaciones deberían reevaluar las prácticas aceptadas para implementar software y otorgar derechos de actualización.
El incidente de CrowdStrike subraya la necesidad de pruebas robustas, evaluación de riesgos y canales de comunicación definidos para prevenir interrupciones generalizadas y minimizar el daño. Esto también significa incluir toda su cadena de suministro en los ejercicios de planificación de contingencia, ya que el riesgo de terceros podría afectar su negocio durante una interrupción o amenaza cibernética.
2 - Compromiso 24/7/365
Las interrupciones de TI no necesariamente ocurren en horarios convenientes de nueve a cinco. Este incidente reforzó la importancia de mantener una capacidad de respuesta las 24 horas del día, los 7 días de la semana. Un compromiso con el monitoreo continuo de la red, la respuesta rápida a incidentes y la gestión de recursos asegura una restauración oportuna para los clientes afectados.
3 - El componente humano es esencial
Si bien las soluciones técnicas son imprescindibles, particularmente a medida que la industria adopta un mundo tecnológico liderado por la IA, el factor humano aún juega un papel fundamental. Esta interrupción destacó cómo la industria de TI está luchando por incorporar las mejores prácticas para la infraestructura de TI basada en la nube mientras mantiene al talento en el circuito para probar la tecnología.
Solucionar el problema de forma remota simplemente no era la única opción. En algunos casos, las empresas tuvieron que trabajar por teléfono con usuarios no técnicos, lo que ejemplifica la paciencia y la empatía requeridas durante estos incidentes.
4 - Las relaciones con los proveedores son importantes
Colaborar estrechamente con proveedores permite abordar el problema rápidamente. La interacción regular con los proveedores fuera de una crisis, la comprensión de sus procesos de actualización y tener líneas directas de comunicación también son críticos para una respuesta efectiva a incidentes.
5 - Los canales de comunicación efectivos son imperativos
La comunicación clara es esencial durante una crisis. Hemos sido testigos de la importancia de informar rápidamente a los clientes sobre la situación, proporcionar actualizaciones y gestionar expectativas. Establecer canales de comunicación confiables ayuda a garantizar la transparencia y minimizar la confusión.
Incluso si una interrupción es a corto plazo, sus efectos pueden persistir, impactando cómo sus clientes ven su respuesta. Escuchar directamente de los clientes sobre su experiencia durante el incidente es especialmente útil para refinar las estrategias de respuesta y estar mejor preparados para la próxima vez.
Mantener a los clientes en funcionamiento debe ser siempre una prioridad asegurar que estén operativos lo más rápido posible ante este tipo de situaciones.