No dia 20 de outubro, nossos serviços sofreram uma degradação significativa devido a uma interrupção de grande porte na região da , que afetou a disponibilidade dos recursos de computação (). Durante o evento, a AWS deixou de provisionar novas instâncias, o que impediu que nossa infraestrutura pudesse escalar e manter a capacidade operacional habitual. Em resumo, nosso banco de dados permaneceu operacional, mas os servidores responsáveis por atender às requisições começaram a saturar e não conseguiam aumentar sua capacidade.
Embora a origem do incidente tenha sido totalmente externa à Sytex, o alcance global da falha da AWS evidenciou oportunidades para fortalecer nossa resiliência operacional. Durante o evento, implantamos um cluster de computação de contingência na região , o que permitiu restabelecer a continuidade do serviço. Atualmente, estamos otimizando esse processo para que, em cenários semelhantes, a comutação ocorra de forma mais ágil e com menor tempo de inatividade.
Atualmente estamos implementando melhorias estruturais para estarmos preparados caso uma situação similar volte a ocorrer. Entre as ações já em andamento estão:
- Otimização do nosso processo de , com tempos de comutação mais rápidos.
- Avaliação de uma estratégia permanente para garantir alta disponibilidade diante de falhas regionais.
Lamentamos os transtornos causados e reafirmamos nosso compromisso com a da plataforma.
Cada zona de disponibilidade possui recursos redundantes de rede, energia, armazenamento, etc.A infraestrutura da Sytex está distribuída em diferentes zonas de disponibilidade.A falha de 20 de outubro superou esse mecanismo de proteção.
A redundância entre regiões adiciona latência e custos operacionais que, até então, entendíamos não serem justificados, dado o nível de segurança oferecido por implantações .Apesar da baixa probabilidade de um evento desse tipo, estamos considerando uma implantação dos recursos de computação.
A Sytex possui uma natureza de persistência transacional que torna complexas as operações .No entanto, essa é nossa última linha de defesa.
Além de armazenar , também replicamos dados persistentes em outro provedor de nuvem para poder recuperar a capacidade operacional em caso de um incidente catastrófico.