Incidente de 20/10/2025

﻿
No dia 20 de outubro, nossos serviços sofreram uma degradação significativa devido a uma  interrupção de grande porte na região us-east-1 da Amazon Web Services  (AWS), que afetou a disponibilidade dos recursos de computação (EC2). Durante o evento, a AWS deixou de provisionar novas instâncias, o que impediu que nossa infraestrutura pudesse escalar e manter a capacidade operacional habitual.
Em resumo, nosso banco de dados permaneceu operacional, mas os servidores responsáveis por atender às requisições começaram a saturar e não conseguiam aumentar sua capacidade.
Embora a origem do incidente tenha sido totalmente externa à Sytex, o alcance global da falha da AWS evidenciou oportunidades para fortalecer nossa resiliência operacional. Durante o evento, implantamos um cluster de computação de contingência na região us-east-2 (Ohio), o que permitiu restabelecer a continuidade do serviço. Atualmente, estamos otimizando esse processo para que, em cenários semelhantes, a comutação ocorra de forma mais ágil e com menor tempo de inatividade.
Atualmente estamos implementando melhorias estruturais para estarmos preparados caso uma situação similar volte a ocorrer. Entre as ações já em andamento estão:
Otimização do nosso processo de disaster recovery, com tempos de comutação mais rápidos.
Avaliação de uma estratégia multi-região permanente para garantir alta disponibilidade diante de falhas regionais.
Lamentamos os transtornos causados e reafirmamos nosso compromisso com a confiabilidade e estabilidade operacional da plataforma.
﻿
Algumas respostas a perguntas feitas por nossos usuáriosPor que vocês não têm redundância operacional?Nós temos redundância operacional.﻿A AWS oferece  redundância completa em zonas de disponibilidade (AZ) .
Cada zona de disponibilidade possui recursos redundantes de rede, energia, armazenamento, etc.﻿A infraestrutura da Sytex está distribuída em diferentes zonas de disponibilidade.﻿A falha de 20 de outubro superou esse mecanismo de proteção.
Por que vocês não têm redundância entre regiões?A redundância entre regiões adiciona latência e custos operacionais que, até então, entendíamos não serem justificados, dado o nível de segurança oferecido por implantações multi-AZ.﻿Apesar da baixa probabilidade de um evento desse tipo, estamos considerando uma implantação multi-região dos recursos de computação.
Por que vocês não têm redundância multi-cloud?A Sytex possui uma natureza de persistência transacional que torna complexas as operações multi-cloud.﻿No entanto, essa é nossa última linha de defesa.
Além de armazenar backups em um  cofre air-gapped da AWS , também replicamos dados persistentes em outro provedor de nuvem para poder recuperar a capacidade operacional em caso de um incidente catastrófico.
Incidente de 20/10/2025

﻿

Algumas respostas a perguntas feitas por nossos usuários

Por que vocês não têm redundância operacional?

Por que vocês não têm redundância entre regiões?

Por que vocês não têm redundância multi-cloud?