Incidente de 20/10/2025



No dia 20 de outubro, nossos serviços sofreram uma degradação significativa devido a uma  interrupção de grande porte na região us-east-1 da Amazon Web Services  (AWS), que afetou a disponibilidade dos recursos de computação (EC2). Durante o evento, a AWS deixou de provisionar novas instâncias, o que impediu que nossa infraestrutura pudesse escalar e manter a capacidade operacional habitual.
Em resumo, nosso banco de dados permaneceu operacional, mas os servidores responsáveis por atender às requisições começaram a saturar e não conseguiam aumentar sua capacidade.
Embora a origem do incidente tenha sido totalmente externa à Sytex, o alcance global da falha da AWS evidenciou oportunidades para fortalecer nossa resiliência operacional. Durante o evento, implantamos um cluster de computação de contingência na região us-east-2 (Ohio), o que permitiu restabelecer a continuidade do serviço. Atualmente, estamos otimizando esse processo para que, em cenários semelhantes, a comutação ocorra de forma mais ágil e com menor tempo de inatividade.
Atualmente estamos implementando melhorias estruturais para estarmos preparados caso uma situação similar volte a ocorrer. Entre as ações já em andamento estão:
  • Otimização do nosso processo de disaster recovery, com tempos de comutação mais rápidos.
  • Avaliação de uma estratégia multi-região permanente para garantir alta disponibilidade diante de falhas regionais.
Lamentamos os transtornos causados e reafirmamos nosso compromisso com a confiabilidade e estabilidade operacional da plataforma.


Algumas respostas a perguntas feitas por nossos usuários

Por que vocês não têm redundância operacional?

Nós temos redundância operacional.A AWS oferece  redundância completa em zonas de disponibilidade (AZ) .
Cada zona de disponibilidade possui recursos redundantes de rede, energia, armazenamento, etc.A infraestrutura da Sytex está distribuída em diferentes zonas de disponibilidade.A falha de 20 de outubro superou esse mecanismo de proteção.

Por que vocês não têm redundância entre regiões?

A redundância entre regiões adiciona latência e custos operacionais que, até então, entendíamos não serem justificados, dado o nível de segurança oferecido por implantações multi-AZ.Apesar da baixa probabilidade de um evento desse tipo, estamos considerando uma implantação multi-região dos recursos de computação.

Por que vocês não têm redundância multi-cloud?

A Sytex possui uma natureza de persistência transacional que torna complexas as operações multi-cloud.No entanto, essa é nossa última linha de defesa.
Além de armazenar backups em um  cofre air-gapped da AWS , também replicamos dados persistentes em outro provedor de nuvem para poder recuperar a capacidade operacional em caso de um incidente catastrófico.