1 semana atrás 3

Falha na Cloudflare: relembre outros apagões que paralisaram o mundo

Uma instabilidade no serviço de distribuição de conteúdo em nuvem Cloudflare na manhã desta terça-feira (18) deixou uma série de serviços fora do ar, desde a rede social X (antigo Twitter) ao chatbot ChatGPT. O apagão acontece poucas semanas após uma falha global no serviço em nuvem Microsoft Azure e uma pane crítica no sistema da Amazon Web Services (AWS), acendendo um alerta para o perigo da dependência excessiva e centralização da infraestrutura da web em poucos provedores-chave.

Nas próximas linhas, relembramos os grandes apagões que tiraram do ar alguns dos maiores sites e aplicativos do mundo nos últimos meses. Recobre os casos, entenda por que episódios do tipo têm acontecido com cada vez mais frequência e saiba o que os especialistas sugerem para reduzir a dependência dos serviços em nuvem.

ChatGPT e X sofrem QUEDA após falha em serviço de nuvem! Entenda!

ChatGPT e X sofrem QUEDA após falha em serviço de nuvem! Entenda!

O incidente na CrowdStrike que paralisou o mundo

 Gisele Barros/TechTudo Falha na Cloudflare: relembre outros apagões que paralisaram o mundo — Foto: Gisele Barros/TechTudo

Em 19 de julho de 2024, uma falha em um dos sistemas de segurança da empresa norte-americana CrowdStrike causou um dos apagões mais notórios do ano, paralisando uma série de sistemas críticos ao redor do mundo. Na ocasião, a ferramenta Falcon, que serve para detectar possíveis invasões hacker, teve um problema na atualização de software. O patch erroneamente classificou arquivos cruciais do sistema operacional Windows como maliciosos e fez com que as máquinas exibissem a temida "tela azul da morte".

O efeito dominó foi devastador: companhias aéreas sofreram com cancelamentos de voos, bancos ficaram com uma série de caixas eletrônicos inoperantes e até mesmo hospitais tiveram o sistema de saúde paralisado. Como solução, a CrowdStrike precisou emitir uma instrução de emergência para que seus clientes removessem o patch defeituoso manualmente — um processo demorado e dispendioso que exigiu a intervenção de equipes de TI in loco em milhares de empresas.

Apagão na AWS derruba mais de 500 aplicativos

Recentemente, em 20 de outubro, a Amazon Web Services (AWS), maior provedora de infraestrutura em nuvem do mundo, enfrentou uma pane crítica que afetou mais de 500 serviços online globalmente. O apagão foi atribuído a um erro de configuração de rede em um data center localizado na Virgínia do Norte, nos Estados Unidos. Devido à falha, os serviços não conseguiam se comunicar adequadamente com os bancos de dados hospedados na nuvem da Amazon.

Milhões de usuários ficaram impedidos de acessar plataformas como Amazon Prime Video, Trello, Canva e diversos sites de comércio eletrônico, como o Mercado Livre, o que demonstra a dependência maciça da internet na infraestrutura da Amazon. A interrupção durou cerca de 10 horas e exigiu que a AWS isolasse e reiniciasse uma parte significativa de seus sistemas de networking.

Falha na Azure afeta serviços corporativos

Poucos dias após o incidente da AWS, em 29 de outubro, a rival Microsoft Azure também sofreu uma falha global. O apagão foi um lembrete da fragilidade do sistema de nuvem, que muitas empresas usam como alternativa ou complemento à AWS. Assim como na falha da concorrente, o problema teve origem em uma falha de DNS, sistema que funciona como uma "lista telefônica" da internet, traduzindo endereços que digitamos (como techtudo.com.br) em endereços IP que os computadores entendem.

Usuários corporativos foram os mais atingidos, com interrupções em serviços essenciais como Microsoft 365 (incluindo Teams e Outlook). Além disso, houve paralisações em aplicativos de clientes que rodam integralmente no Azure.

Por que os apagões estão acontecendo com tanta frequência?

A sequência de falhas na Cloudflare, Microsoft e Amazon não é coincidência, mas sim um sinal da arquitetura atual da internet. Para o estrategista de inovação e CEO da FWK Innovation Design, Eduardo Freire, o problema reside na concentração.

"Poucos provedores dominam o mercado de CDN, DNS, WAF e roteamento global. Uma simples mudança interna em um desses gigantes pode propagar falhas de forma ampla," afirma Freire.

O Doutor em Direito pela USP e especialista em Direito Digital Lucas Ruiz Balconi concorda e acrescenta que uma parcela gigantesca do tráfego mundial passa por um "funil muito estreito" controlado por pouquíssimas empresas. "A Cloudflare atua como um 'porteiro' e um 'acelerador' para milhões de sites. Quando esse porteiro não trabalha direito, a internet 'trava'", explica.

A isso se soma a complexidade operacional. "Ambientes distribuídos e automação de mudanças elevam o risco de configurações incorretas com efeito dominó, um padrão observado em incidentes recentes," complementa Freire.

Como as empresas podem reduzir a dependência da nuvem e o risco de apagões?

As empresas usam a nuvem por motivos claros de segurança, latência e custo. "Montar uma infraestrutura própria capaz de aguentar um ataque hacker, por exemplo, ou entregar conteúdo rápido para um usuário no Japão e outro no Brasil simultaneamente é economicamente inviável para 90% das empresas. A nuvem 'terceiriza' essa complexidade", explica Lucas Ruiz Balconi.

Isso não significa, entretanto, que seja impossível reduzir a dependência desses grandes provedores. Para os especialistas ouvidos pelo TechTudo, uma solução seria a estratégia "multi-cloud", que basicamente significa não colocar "todos os dados na mesma cesta".

"Se a Cloudflare cai, o sistema chaveia automaticamente para outro local, por exemplo. No entanto, isso exige uma engenharia complexa e duplica custos. A maioria das empresas opta pela conveniência de um único fornecedor, aceitando o risco do apagão", afirma.

Nesse sentido, Balconi ressalta que a falha de gestão não é só do provedor, mas também do cliente. "Muitas empresas, inclusive bancos, tratam a internet como uma 'commodity' que nunca falha (como a luz elétrica), e não desenham planos de contingência," critica o advogado. Ele defende que, para serviços essenciais, a gestão de risco exige a adoção de múltiplos servidores.

"Se a porta da Cloudflare fechar, o sistema deve ser capaz de chavear automaticamente para outro fornecedor. É mais caro, mas é o custo da soberania de dados e da disponibilidade do serviço", opina.

🎥 Relembre a falha da Amazon em outubro

Falha da Amazon resulta em queda de mais de 500 serviços online!!

Falha da Amazon resulta em queda de mais de 500 serviços online!!

Leia o artigo inteiro

Do Twitter

Comentários

Aproveite ao máximo as notícias fazendo login
Entrar Registro