
Una interrupción global en Amazon Web Services (AWS) desató este lunes una cadena de fallas que dejó fuera de servicio a cientos de plataformas y aplicaciones en todo el mundo. La caída del principal proveedor de infraestructura digital provocó bloqueos, lentitud y desconexiones en servicios esenciales, afectando a millones de usuarios y empresas.
Desde las primeras horas del día, redes sociales y foros como Reddit y X se llenaron de reportes sobre caídas simultáneas de aplicaciones. AWS confirmó que presentaba “índices elevados de error en los pedidos enviados” hacia una de sus bases de datos más utilizadas, lo que generó retrasos en la recuperación. Entre los servicios afectados se encuentran Amazon, Instagram, Zoom, Airbnb, Canva, Roblox, Fortnite, Steam, Duolingo, Epic Games Store, Snapchat, Brawl Stars, Alexa y Amazon Prime Video. También se vieron comprometidas herramientas de inteligencia artificial como ChatGPT y Perplexity, que dependen directamente de la nube de Amazon.
Las consecuencias fueron mucho más allá del entretenimiento. Bancos, aerolíneas y comercios electrónicos reportaron interrupciones en sus operaciones digitales, imposibilidad para procesar pagos o validar reservas, y bloqueos en sistemas internos. El alcance de la afectación dejó claro que la dependencia tecnológica global hacia AWS tiene un costo cuando la infraestructura falla.
Amazon Web Services, filial tecnológica de Amazon, opera una extensa red de centros de datos que provee almacenamiento, procesamiento e inteligencia artificial a clientes empresariales y gubernamentales. Su participación en el mercado mundial de servicios en la nube ronda el 30%, muy por encima de Microsoft Azure y Google Cloud, con alrededor del 20% y 13%, respectivamente. Esa posición de liderazgo explica por qué una sola interrupción tuvo repercusiones tan amplias.
Según el portal Downdetector, durante el punto más crítico de la caída se registraron más de 6.5 millones de reportes de fallas en todo el mundo, concentrándose 1.4 millones de ellos en Estados Unidos. También se reportaron interrupciones en Reino Unido, Francia, Países Bajos, Japón y Australia.
La raíz del problema se ubicó en la región US-EAST-1, en Virginia del Norte, donde se concentra buena parte de la infraestructura de AWS. Los ingenieros detectaron un fallo en la resolución del Sistema de Nombres de Dominio (DNS) en la API de DynamoDB, una base de datos utilizada de forma masiva. Este error impidió que los sistemas pudieran traducir direcciones web en códigos numéricos legibles por las máquinas, bloqueando la conexión entre usuarios y servidores.
A partir de ahí, la falla se propagó a otros componentes clave como el servicio EC2, encargado de gestionar la capacidad de cómputo bajo demanda, y los balanceadores de carga de red, fundamentales para distribuir el tráfico de datos. AWS reconoció “errores significativos de API y conectividad” e inició medidas de mitigación escalonadas, priorizando la restauración de DynamoDB, EC2, Lambda, SQS y Amazon Connect, servicios esenciales para empresas y aplicaciones de gran escala.
Por seguridad, la compañía suspendió temporalmente el lanzamiento de nuevas instancias EC2 mientras procesaba el enorme volumen de solicitudes acumuladas. Aunque reportó una mejora progresiva en la conectividad, algunos sistemas continuaron experimentando latencias y errores durante varias horas.
“Hemos tomado medidas de mitigación adicionales para ayudar a la recuperación del subsistema responsable de monitorear la salud de nuestros balanceadores de carga de red, y estamos viendo una mejora sostenida”, informó AWS en su último comunicado técnico.
Al cierre del último parte, emitido este 20 de octubre a las 10:38 AM (hora del Pacífico), Amazon confirmó que seguía procesando atrasos y recomendó a los usuarios evitar nuevos despliegues en zonas específicas, mientras los sistemas finalizan su recuperación total.
La caída de AWS no solo evidenció la vulnerabilidad de la infraestructura digital que sostiene la vida cotidiana en línea, sino también la magnitud de la concentración tecnológica global. Un solo error en una región de servidores bastó para dejar en pausa buena parte del mundo conectado.