El día 20 de octubre, nuestros servicios experimentaron una degradación significativa debido a una interrupción mayor en la región , que afectó la disponibilidad de recursos de cómputo (EC2). Durante este evento, , lo que impidió que nuestra infraestructura pudiera escalar y mantener la capacidad operativa habitual. En pocas palabras, nuestra base de datos estaba operativa, pero los servidores que atienden las peticiones se comenzaron a saturar y no podían aumentar de capacidad.
Aunque el origen del incidente fue completamente externo a Sytex, el alcance global de la falla de AWS evidenció . Durante el evento, desplegamos un clúster de cómputo de respaldo en la región us-east-2 (Ohio), lo que permitió restablecer la continuidad del servicio. Actualmente estamos optimizando este proceso para que, ante escenarios similares, la conmutación se realice de forma más ágil y con menor tiempo de inactividad.
Actualmente estamos para estar preparados en caso de que una situación similar vuelva a ocurrir. Entre las acciones ya en marcha se incluyen:
- Optimización de nuestro proceso de , con tiempos de conmutación más rápidos.
- Evaluación de una para garantizar alta disponibilidad ante fallas regionales.
Lamentamos las molestias ocasionadas y reafirmamos nuestro compromiso con la de la plataforma.
Si tenemos redundancia operativa. AWS ofrece redundancia completa en zonas de disponibilidad (AZ). Cada zona de disponibilidad cuenta con recursos redundantes de red, energía, storage, etc. La infraestructura de Sytex está desplegada en diferentes zonas de disponibilidad. La afectación del 20 de octubre excedió este mecanismo de protección. La redundancia entre regiones agrega latencia y costos operativos que entendíamos no eran justificados debido a la seguridad propuesta por despliegues multi AZ. A pesar de lo poco probable de este evento, estamos considerando un despliegue multi región de recursos de cómputo.
Sytex tiene una naturaleza de persistencia transaccional que complejiza mucho las operaciones multi-cloud. Pero sí es nuestra última línea de defensa. Además de guardar backups en una bóveda air-gapped en AWS , también replicamos datos persistentes en otro cloud para poder recuperar la capacidad operativa en caso de un incidente catastrófico.