Innovative Software Technology-AWS US-EAST-1: La Megacaída que Sacudió la Nube Global el 20 de Octubre de 2025

El 20 de octubre de 2025, una interrupción masiva sacudió los cimientos de la infraestructura digital global: Amazon Web Services (AWS) experimentó una caída significativa en su región US-EAST-1, ubicada en Virginia del Norte. Esta región, considerada el “corazón” de AWS por albergar la mayor parte de su infraestructura, datos y servicios para clientes en América del Norte y más allá, provocó un efecto dominó que paralizó a cientos de plataformas populares, desde redes sociales hasta servicios de IA y banca.

El epicentro del problema fue un fallo crítico en la resolución del Sistema de Nombres de Dominio (DNS) para el endpoint de DynamoDB, un servicio de base de datos fundamental de AWS. Como un efecto cadena, esta falla inicial se propagó rápidamente a otros componentes, generando latencias, errores y largos periodos de inactividad en aplicaciones como Snapchat, Fortnite, ChatGPT y sistemas bancarios clave. El incidente, que se prolongó durante varias horas, generó más de 4 millones de informes de problemas en Downdetector, superando el doble del tráfico normal y subrayando la interconectividad y la dependencia global de la nube de Amazon.

La Cronología de un Descalabro Digital

La secuencia de la caída se puede desglosar en varios puntos clave, evidenciando la fragilidad de sistemas complejos cuando un componente crucial falla.

El DNS: La “Guía Telefónica” que Colapsó

El problema comenzó alrededor de las 03:11 ET. El DNS, esencialmente la “guía telefónica” de internet que traduce nombres de dominio legibles a direcciones IP numéricas, dejó de funcionar correctamente para el endpoint de la API de DynamoDB. Sin esta traducción vital, los servicios de AWS no pudieron “encontrarse” ni comunicarse, dejando a DynamoDB inoperable y a las solicitudes atascadas, generando errores inmediatos en las aplicaciones que dependían de él.

DynamoDB Arrastra a Gigantes como EC2 y Lambda

Con el DNS de DynamoDB comprometido, este “almacén central” de datos para innumerables aplicaciones se vino abajo. Servicios clave como EC2 (máquinas virtuales para hosting) y Lambda (funciones sin servidor), que intentaban acceder a DynamoDB para sus datos, se congelaron o devolvieron errores. Esto causó que funcionalidades en Alexa, Prime Video, ChatGPT, Perplexity, Roblox y Fortnite fallaran, e incluso bancos como Lloyds reportaran interrupciones en sus aplicaciones móviles. El impacto fue global, dado que muchas aplicaciones usan US-EAST-1 como su región principal.

El Segundo Golpe: Fallo en los Balanceadores de Red

Mientras los ingenieros de AWS lidiaban con la falla inicial, un problema secundario surgió en los balanceadores de red (como Elastic Load Balancers o ALB). El “deterioro de varios dispositivos de red” impidió la correcta distribución del tráfico, lo que exacerbó el caos. Más latencia y errores se reportaron en servicios como S3 (almacenamiento) y API Gateway, afectando directamente a aplicaciones como Zoom, Duolingo y las operaciones internas de logística de Amazon.

La Batalla por la Recuperación

AWS activó su plan de respuesta a incidentes, con ingenieros trabajando para identificar la causa raíz y aplicar mitigaciones. Esto incluyó redirigir el tráfico a endpoints alternos, reiniciar componentes afectados y escalar la capacidad en otras zonas de disponibilidad (AZs) dentro de US-EAST-1. Hacia las 09:50 ET, se observaron “señales significativas de recuperación”, aunque la creación de tickets de soporte estuvo limitada durante el pico del incidente.

El Regreso Lento a la Normalidad

Con las mitigaciones en marcha, los servicios comenzaron a recuperarse por fases: primero DynamoDB, luego EC2/Lambda y finalmente los balanceadores. Aplicaciones como Snapchat y Fortnite volvieron a la vida, y ChatGPT volvió a responder consultas. Sin embargo, la recuperación no fue instantánea, y algunos usuarios, especialmente en Europa y Asia, experimentaron retrasos persistentes debido a la dependencia de US-EAST-1 para sus datos globales.

El Costo del Backlog

Incluso después de la recuperación de los servicios principales, AWS tuvo que lidiar con un “backlog masivo”: una acumulación de solicitudes pendientes (como actualizaciones de datos en DynamoDB) que se generaron durante el apagón. Procesar este volumen de tareas tomó horas adicionales, causando latencias residuales en servicios como Prime Video y Venmo. AWS prometió un monitoreo continuo para evitar futuras recurrencias, recordando incidentes pasados similares.

Impacto y Lecciones Aprendidas

Esta caída afectó a más de 66 empresas reportadas, desde redes sociales y servicios de IA hasta finanzas, resaltando la profunda dependencia global de AWS, que alberga entre el 30% y el 40% de la nube mundial.

Servicios AWS Afectados y su Impacto:

Servicio AWS	Impacto Principal	Aplicaciones/Terceros Afectados	Duración Estimada	Notas
DynamoDB	Fallo en lecturas/escrituras (DNS)	ChatGPT, Perplexity, bases de datos apps	~5-7 horas	Causa raíz; endpoint no resuelto.
EC2	Instancias no responden; hosting falla	Roblox, Fortnite (servidores de juego)	~4-6 horas	Dependencia de DynamoDB para datos.
Lambda	Funciones serverless no ejecutan	AWS Lambda apps, Alexa skills	~3-5 horas	Invocaciones limitadas por red.
S3	Acceso a almacenamiento intermitente	Prime Video, backups	~2-4 horas	Afectado por balanceadores.
ALB/ELB	Balanceo de tráfico colapsa	Zoom, Duolingo (load balancing)	~3-5 horas	Deterioro de dispositivos de red.
API Gateway	Endpoints no responden	Apps móviles de bancos (Lloyds, Venmo)	~4-6 horas	Propagación de errores DNS.
CloudFront	CDN con latencia alta	Snapchat, Canva (entrega de contenido)	~2-4 horas	Impacto indirecto por US-EAST-1.

AWS no reportó pérdidas de datos, pero el backlog acumulado causó demoras significativas en las transacciones y operaciones. Este evento fue un claro recordatorio de que incluso los gigantes de la nube no son inmunes a fallos. La principal lección, tanto para AWS como para sus clientes, es la importancia crítica de la arquitectura de resiliencia. AWS recomienda fervientemente estrategias multi-región (replicación de datos y servicios en diferentes regiones geográficas, como US-WEST-2) y backups en múltiples zonas de disponibilidad (AZs) dentro de una misma región. Para las empresas que dependen de AWS, revisar la arquitectura para asegurar la capacidad de failover (conmutación por error) y emplear servicios como Route 53 para un DNS resiliente es una medida esencial para mitigar los riesgos de futuras interrupciones.