卷九导读：可观测与流量治理

网络最让人头疼的时刻，往往不是设计阶段，而是故障发生之后：用户说连不上，监控说大体正常，工程师打开终端，却不知道第一眼该看哪里。连接已经足够复杂，可真正难的是把这种复杂性重新变得可见、可判断、可恢复。很多系统在平时看起来都运转正常，问题只在某个时刻、某条路径、某一类请求上短暂显形；如果没有合适的观察点，复杂性就会像雾一样铺开，让每一次排障都像在黑暗里摸索。越是分布式、越是自动化的网络，这种“看不见”的代价就越高。

流日志回答的是“刚才发生了什么”，主动探测回答的是“问题是不是正在酝酿”，多路径与快速切换回答的是“坏了以后能不能先别影响用户”，而微服务治理继续追问“基础设施没坏时，应用之间的调用为什么还是在悄悄变差”。视角抬到这里，网络就不再只是一个转发系统：它还必须解释包、预测包，并在必要时替包改道。网络角色开始悄然变化，从单纯的连接设施，变成既要承担可见性、又要承担决策能力的运行系统。到了这个层次，稳定性不再只是“不出故障”，而是出了故障也能被尽快看见、尽快判断、尽快绕过去。