5作者: 2dvisio23 天前原帖
AWS 最近发布了关于 2025 年 10 月 us-east-1 区域故障的事后分析报告[1]。DynamoDB 中的 DNS 竞争条件导致了 EC2、Lambda、Redshift 和 NLB 的级联故障,造成了大约 14 小时的新实例启动操作受损,并对多个服务产生了连锁影响。 有没有人对 AWS 的有效可用性进行过定量建模,考虑到它们控制平面和数据平面内的服务间依赖关系? 换句话说:如果 EC2 依赖于 DynamoDB,而 Lambda 依赖于 EC2 + NLB,那么在实际情况中,复合可用性是多少? [1] - https://aws.amazon.com/message/101925/