AWS Outage on 10/20: Behind the Collapse

I read the breakdown of AWS’s 10/20 incident that took down the internet so you don’t have to.

Total impact window: 19/10 23:48 PDT - 20/10 14:20 PDT.

Three distinct failure periods affected multiple AWS services.

Mainly affected: DynamoDB, EC2, NLB, and services depending on them such as Lambda, ECS/EKS, Connect, STS, IAM, Redshift, and others.

Summary Timeline

DynamoDB API errors

23:48 19/10 - 02:40 20/10

The failure was caused by a race condition in DynamoDB’s automated DNS management system.

The regional endpoint lost its IP records, blocking connections. Full recovery at 02:40 after DNS restoration and cache expiration.

EC2 new instances / networking

23:48 19/10 - 13:50 20/10

The DWFM subsystem could not validate leases for physical servers (“droplets”) because it depended on DynamoDB.

After DNS came back, lease recovery took time and caused “insufficient capacity” issues plus Network Manager delays in network propagation.

Recovery in phases:

Network Load Balancer (NLB)

05:30 - 14:09 20/10

Health check failures occurred while bringing up new instances before network propagation had completed.

This caused oscillation between “healthy node” and “node removed.”

Automatic failover was disabled at 09:36 and returned to stable capacity. It was re-enabled at 14:09.

Service Impact

Main Technical Causes

Planned Corrective Actions

This was a complex, cascading incident caused by a latent defect in DynamoDB DNS management, propagating failures into EC2, NLB, and many dependent services.

AWS promised stronger automation, controls, and test processes to mitigate similar events.

Incidente da AWS de 20/10: por trás da queda

Eu li o detalhamento do incidente da AWS do dia 20/10 que derrubou a internet toda para que você não tenha que ler.

Período total de impacto: 19/10 23:48 PDT - 20/10 14:20 PDT.

Três períodos distintos de falha afetaram múltiplos serviços AWS.

Principais afetados: DynamoDB, EC2, NLB e serviços que dependem deles, como Lambda, ECS/EKS, Connect, STS, IAM, Redshift, entre outros.

Linha do Tempo Resumida

DynamoDB API erros

23:48 19/10 - 02:40 20/10

Falha causada por race condition no sistema automatizado de gerenciamento DNS da DynamoDB.

Endpoint regional ficou sem registros IP, bloqueando conexões. Recuperação completa às 02:40, com DNS restaurado e caches expirados.

EC2 novas instâncias / rede

23:48 19/10 - 13:50 20/10

O subsystem DWFM não conseguia validar leases de servidores físicos (“droplets”) por depender da DynamoDB.

Após o DNS voltar, o restabelecimento de leases demorou e causou problemas de “insufficient capacity” e atrasos no Network Manager para propagação de rede.

Recuperação em fases:

Network Load Balancer (NLB)

05:30 - 14:09 20/10

Falhas no health check ao trazer novas instâncias sem a rede já propagada.

Isso resultou em alternância entre “node saudável” e “node removido”.

O failover automático foi desativado às 09:36, voltando à capacidade estável. Foi reativado às 14:09.

Impacto por Serviço

Causas Técnicas Principais

Ações Corretivas Planejadas

Foi um incidente complexo e escalonado, originado por um defeito latente no gerenciamento DNS da DynamoDB, propagando falhas para EC2, NLB e diversos serviços dependentes.

A AWS prometeu fortalecer automações, controles e processos de teste para mitigar eventos similares.