跳转至

卷九导读:可观测与流量治理

网络最让人头疼的时刻,往往不是设计阶段,而是故障发生之后:用户说连不上,监控说大体正常,工程师打开终端,却不知道第一眼该看哪里。连接已经足够复杂,可真正难的是把这种复杂性重新变得可见、可判断、可恢复。很多系统在平时看起来都运转正常,问题只在某个时刻、某条路径、某一类请求上短暂显形;如果没有合适的观察点,复杂性就会像雾一样铺开,让每一次排障都像在黑暗里摸索。越是分布式、越是自动化的网络,这种“看不见”的代价就越高。

流日志回答的是“刚才发生了什么”,主动探测回答的是“问题是不是正在酝酿”,多路径与快速切换回答的是“坏了以后能不能先别影响用户”,而微服务治理继续追问“基础设施没坏时,应用之间的调用为什么还是在悄悄变差”。视角抬到这里,网络就不再只是一个转发系统:它还必须解释包、预测包,并在必要时替包改道。网络角色开始悄然变化,从单纯的连接设施,变成既要承担可见性、又要承担决策能力的运行系统。到了这个层次,稳定性不再只是“不出故障”,而是出了故障也能被尽快看见、尽快判断、尽快绕过去。