第315章 提前布置「海上数据计划」(1/2)
请关闭浏览器的阅读/畅读/小说模式并且关闭广告屏蔽过滤功能,避免出现内容无法显示或者段落错乱。
第二轮全链路演练是在凌晨四点开始的。
许承没有提前通知任何业务线,只在天机云基础设施组的调度中心里坐定,看了一眼墙上的时钟,然后对操作台前的工程师说了两个字:“切吧。”
主控屏上,天机云海外节点与国內核心数据中心的连接状態从绿色跳成黄色,再跳成橙色。四十七秒后,所有跨区域研发协同、设计数据同步、版本管理系统、远程验证平台的默认路由,全部从传统海底电缆主路径切换到了海上数据计划的备用架构上。
切换本身几乎没有感知。
这是许承最在意的事。真正好的冗余方案,不是在灾难发生时让用户看到一张“我们正在切换”的提示页,而是让灾难发生在技术底层,让业务层什么都感觉不到。
四十秒后,第一个问题暴露了。
一个位於南洋的边缘缓存节点在高延迟场景下的数据一致性校验超时,导致该区域的部分版本管理请求回退到了降级模式。不是断线,不是丟数据,但响应时间从正常的两百毫秒爬升到了接近两秒。
“抓到了。”负责边缘节点调度的工程师没有慌,反而像是鬆了一口气。
许承看了一眼日誌,没有立刻做判断,只是说:“先跑完,问题记下来,不修。”
他要用一轮完整的全链路演练,把海上数据计划在当前状態下所有能暴露的问题全部暴露出来。修补丁不急於这一时,但问题清单必须足够全、足够细、足够真。
演练持续了四小时十七分钟。
在这四小时十七分钟里,海上数据计划的备用架构承受了天机云海外节点与国內核心之间所有关键业务流的真实负载。设计数据同步、代码仓库交互、远程验证调度、ai训练任务的跨区域协同、以及部分非敏感的用户服务流量,全部被切到了备用路径上。
暴露出来的问题被一条条记录下来。
边缘缓存节点的数据一致性策略需要重构,有三个区域的链路冗余在极端高延迟下存在盲区,异步同步的优先级调度算法在某些边界条件下会starvation,两个中间节点的带宽分配策略不够精细,以及在最高压负载场景下,核心研发数据的同步延迟会从正常的两百毫秒放大到一点五秒到三秒之间。
没有一个问题是致命的。
但没有一个问题可以被忽略。
许承在演练结束后,把问题清单从头到尾看了三遍,然后在最上面写了一行字:全部修復,两周內完成第三轮全量演练。
清晨六点,陈醒到了调度中心。
他没有看演练报告的文字版本,而是直接让许承把最核心的几个问题点用拓扑图演示了一遍。许承指著图上被標红的几个节点和链路,把问题拆成了三个层级。
“第一层,边缘侧的数据一致性和优先级调度,这是软体层面的问题,能修。第二层,两个中间节点的链路冗余盲区,需要调整路由策略和备份路径规划,也能修。第三层——目前看下来没有结构性的硬伤,骨架是成立的。”
陈醒听完,没有评价“好”或“不好”,而是问了一个更本质的问题:“如果对面不只是物理切断海底电缆,还同时对我们海外节点的ip位址段、域名系统、甚至云基础设施的底层服务协议进行全面干扰,这套架构还能撑多久”
调度中心里安静了一瞬。
这个问题比许承自己预设的最坏场景还要再深一层。他原来考虑的是“物理链路被切断”的极限情况,而陈醒问的是“对面在链路之外,还从网络基础服务层同时打击”的全面窒息场景。
许承没有马上回答,而是调出了另一张图。这张图不在原本的海上数据计划方案里,是他自己团队在过去两周里悄悄加的一层冗余。
“如果发生你说的那种情况,核心研发数据的同步会从『准实时』降级为『异步批次』。带宽会大幅下降,延迟会从秒级变成分钟甚至小时级,但数据不会丟,关键任务不会断。”他指著图上最核心的那几条深蓝色链路,“我们在三个中立区域的边缘节点上部署了独立的域名解析服务和基础网络调度能力,不依赖任何第三方平台。即使海外节点的对外服务全面中断,核心研发协同仍然能通过这条通道维持最低限度的存活。”
陈醒看著那张图,看了十几秒。
“再加一层。”他说,“不只要维持最低限度存活,还要在极端情况下具备有限度的对外服务能力。民用级的海外服务可以断,但已经接入天枢生態的开发者、合作伙伴、区域协同节点,不能断。”
许承心里微微一震。
这意味著海上数据计划的定位要从“研发自救”升级为“生態底线”。不只要保未来科技自己能活下去,还要保那些已经选择站到天枢生態里的人,不至於因为外部风暴而被连根拔起。
“这条线的资源需要翻倍。”许承没有客气。
“给。”陈醒说,“从现在起,海上数据计划升为一级特批线,所有资源你直接调用,不走常规审批。”
许承点头,没有再说谢谢。在这个阶段,谢谢是最没用的东西。
上午九点,海上数据计划升级的消息开始在核心层扩散。
不是正式通告,而是通过任务清单的变化、资源调拨的优先级、以及各条业务线被要求配合的新一轮接口规范,一点点渗透进每个相关团队的日常节奏里。
赵静接到的是关於ai训练任务跨区域协同的新要求:在备用架构下,所有涉及敏感数据集的训练任务必须支持断网续训和异步梯度合併,不允许因为链路中断而导致训练任务大面积回滚。
这意味著小芯的部分训练框架要重写。
本章未完,点击下一页继续阅读。