4 horas atrás 3

Como um bug 'apagou' o banco de dados da nuvem da Amazon e parou tudo

O efeito cascata começou quando ninguém conseguiu encontrar o principal banco de dados da Amazon. Isso fez com que todos os serviços que dependiam dele parassem imediatamente, como foi o que aconteceu com o sistema que gerenciava os servidores. Quando o endereço foi corrigido, esse sistema ficou tão sobrecarregado tentando se recuperar que "atolou". Isso gerou o próximo problema: os poucos servidores em funcionamento ficaram sem conexão de rede. E os balanceadores de carga (que direcionam o tráfego dos clientes), quando viram esses servidores "sem rede", pensaram que estavam quebrados e falharam também, derrubando de vez os aplicativos dos clientes.

A falha inicial do DynamoDB quebrou praticamente tudo. Serviços como o de telefonia em nuvem (Amazon Connect), análise de dados (Redshift), execução de código (Kubernetes), e até o sistema que gerencia o login da Amazon, pararam de funcionar. Clientes não conseguiram acessar contas, receber ligações e processar consultas, por exemplo.

A Amazon desativou a automação de DNS que deu origem à falha. Segundo a empresa, o robô permanecerá desligado até que o bug seja corrigido e mais proteções sejam adicionadas.

Serviços que falharam receberão melhorias. Serão adicionados "freios" nos servidores EC2 e nos balanceadores de carga (NLB), para que eles não entrem em colapso tão facilmente se algo parecido acontecer de novo.

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro