卷十导读:AI 时代的网络
前面九卷建立的整套云网络体系,有一个从未被明确说出来的基本假设:流量是请求-响应模型。一个包出去,一个包回来。负载均衡按连接数分发,ECMP 按五元组哈希选路径,安全组按源目的 IP 放行,服务网格按 HTTP Header 路由。所有机制都围绕这个模型设计,所有优化都假设流量是海量小包的一来一回。这个假设如此自然,以至于没有人觉得它是一个"假设"。直到 AI 大模型的出现,从两个方向同时打破了它:训练侧,数千张 GPU 之间不是一问一答,而是全对全同步,TB 级数据每几百毫秒交换一次,TCP 的拥塞控制和 ECMP 的哈希机制在这种流量形状面前全部失效;推理侧,请求的计算成本差异可达百倍,实例有状态,传统负载均衡器看不到也理解不了这些信息。
当流量的基本形状变了,为旧形状设计的所有机制都需要重新审视。训练通信需要的不是更快的 TCP,而是一种完全不同的传输范式;推理调度需要的不是更聪明的负载均衡,而是一种能理解模型内部状态的路由机制。网络的角色正在从"被动的管道"变成"主动的参与者"——它需要理解数据的含义,才能做出正确的转发和调度决策。这是云网络演进中一次质的跃迁:从理解协议,到理解应用状态。