Durante la madrugada de hoy se produjeron incidentes técnicos en nuestro proveedor de infraestructura tecnológica, Amazon Web Services (AWS):
Comunicado de AWS
20 de octubre a las 7:53 p. m. UTC-3 Entre las 3:49 del y las 6:24 del 20 de octubre, experimentamos un aumento en las tasas de error y las latencias de los servicios de AWS en la región US-EAST-1. Además, los servicios o las funciones que dependen de los puntos de conexión US-EAST-1, como IAM y las tablas globales de DynamoDB, también experimentaron problemas durante este período. A las 04:26 del 20 de octubre, identificamos el desencadenante del evento como problemas de resolución de DNS para los puntos de conexión del servicio regional de DynamoDB. Después de resolver el problema de DNS de DynamoDB a las 6:24, los servicios comenzaron a recuperarse, pero sufrimos una falla posterior en el subsistema interno de EC2, responsable del lanzamiento de las instancias de EC2, debido a su dependencia de DynamoDB. A medida que continuamos trabajando en las fallas de lanzamiento de las instancias de EC2, las comprobaciones de estado del balanceador de carga de red también se vieron afectadas, lo que provocó problemas de conectividad de red en varios servicios, como Lambda, DynamoDB y CloudWatch. Recuperamos las comprobaciones de estado del balanceador de carga de red a las 13:38. Como parte de la recuperación, limitamos temporalmente algunas operaciones, como el lanzamiento de instancias EC2, el procesamiento de colas de SQS mediante asignaciones de orígenes de eventos Lambda y las invocaciones asincrónicas de Lambda. Con el tiempo, redujimos la limitación de las operaciones y trabajamos en paralelo para resolver los problemas de conectividad de red hasta que los servicios se recuperaron por completo. A las 19:01, todos los servicios de AWS volvieron a funcionar con normalidad. Algunos servicios, como AWS Config, Redshift y Connect, siguen teniendo una acumulación de mensajes que finalizarán de procesar en las próximas horas. Compartiremos un resumen detallado de AWS posterior al evento.
Zipnova utiliza varios de los servicios de AWS que se vieron comprometidos, lo que ocasionó problemas y demoras para procesar ordenes y envíos durante la primer fase del evento (3:49 am - 6:24 am). Luego vimos cierta recuperación en los mismos, sin lograr una completa recuperación hasta horas mas tarde.
Adicionalmente, muchos servicios o plataformas con las cuales estamos integrados, como Mercado Libre, Tienda Nube, VTEX, algunos transportes y otros servicios tecnológicos de uso interno, también están montados en la nube de AWS, con lo cual se vieron afectados por los mismos problemas.
Lamentamos mucho las molestias ocasionadas por este inconveniente técnico que, aunque estuviera fuera de nuestro control, haya podido ocasionar en sus respectivas operaciones durante la jornada de hoy.