Incidente del 20/10/2025

El día 20 de octubre, nuestros servicios experimentaron una degradación significativa debido a una  interrupción mayor en la región us-east-1 de Amazon Web Services  (AWS), que afectó la disponibilidad de recursos de cómputo (EC2). Durante este evento, AWS dejó de aprovisionar nuevas instancias, lo que impidió que nuestra infraestructura pudiera escalar y mantener la capacidad operativa habitual.
En pocas palabras, nuestra base de datos estaba operativa, pero los servidores que atienden las peticiones se comenzaron a saturar y no podían aumentar de capacidad.
Aunque el origen del incidente fue completamente externo a Sytex, el alcance global de la falla de AWS evidenció oportunidades para fortalecer nuestra resiliencia operativa. Durante el evento, desplegamos un clúster de cómputo de respaldo en la región us-east-2 (Ohio), lo que permitió restablecer la continuidad del servicio. Actualmente estamos optimizando este proceso para que, ante escenarios similares, la conmutación se realice de forma más ágil y con menor tiempo de inactividad.
Actualmente estamos implementando mejoras estructurales para estar preparados en caso de que una situación similar vuelva a ocurrir. Entre las acciones ya en marcha se incluyen:
  • Optimización de nuestro proceso de disaster recovery, con tiempos de conmutación más rápidos.
  • Evaluación de una estrategia multi-región permanente para garantizar alta disponibilidad ante fallas regionales.
Lamentamos las molestias ocasionadas y reafirmamos nuestro compromiso con la confiabilidad y estabilidad operativa de la plataforma.


Algunas respuestas a preguntas que nos hicieron nuestros usuarios

¿Por qué no tienen redundancia operativa?

Si tenemos redundancia operativa. AWS ofrece  redundancia completa en zonas de disponibilidad  (AZ). Cada zona de disponibilidad cuenta con recursos redundantes de red, energía, storage, etc. La infraestructura de Sytex está desplegada en diferentes zonas de disponibilidad. La afectación del 20 de octubre excedió este mecanismo de protección.

¿Por qué no tenían redundancia entre regiones?

La redundancia entre regiones agrega latencia y costos operativos que entendíamos no eran justificados debido a la seguridad propuesta por despliegues multi AZ. A pesar de lo poco probable de este evento, estamos considerando un despliegue multi región de recursos de cómputo.

¿Por qué no tienen redundancia multi-cloud?

Sytex tiene una naturaleza de persistencia transaccional que complejiza mucho las operaciones multi-cloud. Pero sí es nuestra última línea de defensa. Además de guardar backups en una  bóveda air-gapped en AWS , también replicamos datos persistentes en otro cloud para poder recuperar la capacidad operativa en caso de un incidente catastrófico.