15. 当 AI 进入组织：从工具到能力底座

一个团队用 AI 编程用了两年，回头清点自己的家底，会发现一件让人意外的事：手里的资产比传统时代多得多，但能用、还在用、知道怎么用的，比例并不高。

如果只把这看作是治理不到位，就小看了这个问题。把它放大观察：组织过去几百年是怎么积累认知的？经验装在人脑里、随人离开而流失，这是组织作为一个学习者最根本的样子。AI 第一次让这件事有了变数。本章谈的是：当 AI 进入组织，组织的认知本身可能从依附于人的隐性资产，变成可被工程化、版本化、持续迭代的显性资产。

但这不是免费的。要做成它，组织得先处理好资产、度量、中层、责任这几方面的问题。

15.1 几百个 Skill，没人记得哪些还在工作

先从一个具体场景切入。

一个团队用 AI 编程用了两年，让他坐下来盘一盘自己的家底，会发现有几样东西：几百个 Skill，覆盖项目里反反复复出现的那些常见逻辑；一个不小的知识库，装着架构设计文档、历史故障复盘、API 用法手册、各种迁移指引。

光看数字，这个团队的资产积累相当可观。比起两年前刚开始用 AI 时那个空荡荡的工作目录，已经是另一个世界了。

但接着问几个具体的问题：那几百个 Skill 里，有多少是这个月还有人在调？有多少是去年某个项目期临时写的、项目结束之后再没人碰过？里面有多少调用了已经被废弃的内部接口、引用了已经改名的模块、装着两个版本之前的代码风格？知识库里那些复盘文档，有多少描述的是已经被重构掉的旧架构，有多少还能反映团队当前真正关心的问题？

团队里通常没人能给出一个干脆的答案。大家会含糊地说一句应该大部分还在用吧，但这个应该里面藏着的不确定，比说出来的部分要多。

这件事和传统资产很不一样。传统的代码资产，过期了你能感觉到。一个旧函数里调了一个被删掉的接口，编译会报错；一个老脚本依赖了一个不再存在的环境变量，跑不起来；一份过时的配置文件被加载，服务直接起不来。传统资产用一种简单粗暴的方式提示你它的状态，要么能跑，要么不能跑，中间地带很窄。

AI 时代的这些资产没有这个机制。一个过期的 Skill 不会报错，它会照样被加载、照样被 Agent 调用，只是它产出的代码可能引用了一个早就不该再用的 API，可能套着一个项目早就放弃的旧风格，可能漏了过去半年新增的几条约束。它产出的东西看上去没问题，能编译，能跑，甚至能通过测试，但它已经不再代表团队当前的认知了。

这就是 AI 时代组织资产最特别的失效形态，静默腐烂。它不像代码资产坏了会报错，它坏了你看不出来，它只是慢慢地变得越来越不贴合现实。

再往前问一步：这件事是某个团队治理不到位才发生的，还是它在结构上就会发生？如果是后者，旧的那套资产管理思路就不只是不够用，而是从根上就不对。

15.2 静默腐烂是 Goodhart 在另一个尺度的展开

深思这个问题，会发现这不是哪个团队偷懒造成的，是它本身的机制注定的。

之前讲过 Goodhart 在判定层的展开：一个判定指标一旦被用来管某种产出，这个产出就会被改造得专门去过这个指标，指标本身慢慢和它原本想衡量的东西脱钩。代码层的具体表现是测试用例被针对性地写得能过 CI，评估集被针对性地训出能过的模型，判定层一边在判定，一边被它判定的对象悄悄改造。

这条 Goodhart 主线在组织资产层有一个对应的展开，只是参与者从代码换成了资产。Skill、Prompt、Spec、知识库，每一类资产都是在某个时刻为了服务一个具体目标被建起来的：这个 Skill 是为了沉淀那次重构的经验，这条 Skill 是为了让 Agent 在这个项目里不要走那个特定的弯路。建立的时候，资产和它要服务的目标是对齐的。

但目标会动变化，项目会结束，接口会演进，团队对什么样的代码算好的判断会随着业务变化而变化。资产服务的那个目标在变，资产本身却不会自动跟着变。它停在它被建立的那一刻，慢慢地和它本来想服务的目标错开。而错开的过程是悄悄发生的，每一天的偏移都很小，没有任何一天会出现一个明确的今天这个 Skill 失效了的信号。等到偏移大到引起注意，往往已经积累了几个月甚至几个季度。

这个过程和之前讲的判定层腐蚀，是同一种机制在不同尺度上的展开。判定层腐蚀的尺度是单 PR、单测试用例、单评估集，时间常数是周；这里的尺度是组织级的整批资产，时间常数是季度甚至年。机制相同，规模不同。

那怎么办？

直觉的答案是建管理流程：定期清理 Skill 库、给每个资产标版本、写资产生命周期规范。这些动作都不错，但它们都没碰到问题的核心。真正反直觉的判断是，AI 时代组织治理的核心不仅仅是把新资产建起来，还要让旧资产能体面地退场。

这个判断有点反传统组织行为学，传统组织讲的是积累、沉淀、传承，把减少资产看作一种损失。AI 时代要倒过来看，新资产建起来不难，难的是旧资产下不去。一份过期的 Spec 没人删，因为删了万一以后有人需要呢；一个老 Skill 没人退役，因为它毕竟还能用。每一份不该再留的资产都有它留下来的具体理由，但这些理由加在一起，组织的资产层就会一年年地越来越浊。

让资产体面退场需要的不是一份生命周期文档，是组织文化层面承认一件事：资产的价值不在它存在多久，在它有多贴合现在。一份用了三年的 Spec 不一定比一份新写的 Spec 更值钱，老不等于稳定，更可能等于过期。

这一批资产和传统的代码资产还有个不一样的地方：它们不像代码那样中立。一段 Skill、一份长 Prompt、一份 Spec，里面除了任务说明，还藏着写它的那个人对这个项目、对这类问题、对边界情况该怎么处理的判断。同一个需求，张三写的 Skill 和李四写的 Skill 跑出来的代码不会一样。Agent 遵循这段资产写出来的代码，是带着原作者的判断在写。这件事本身不是坏事，但治理的方向应该是通过统一模板、共同维护、定期 review 把个人判断压成团队判断，让资产去人格化。

资产层讲完，下面要讲度量。这两层看上去是两个问题，背后是同一种机制：Goodhart 在不同尺度上各跑一遍。

度量层的 Goodhart 比资产层更快、更显性。每个开始用 AI 的组织都会想衡量它用得好不好，常见的指标不难列：人工接管率、代码生成量、AI 使用率、PR 通过率、平均迭代时长。把这些指标真拿去管团队，几天之内行为就开始变形。

定一个人工接管率要低的指标，团队会很快发现接管 Agent 的输出会让这个数字变难看，下一步就会倾向于不接管，哪怕这次输出明显不对，让一个错的输出过去，比留下一次接管记录代价更小。定一个代码生成量要高，团队会让 Agent 多生成，能用一个函数解决的事让它写三个，生成量的数字漂亮了，代码库的体积也跟着膨胀。定一个 AI 使用率要高，团队会把不该用 AI 的地方也强行套上 AI，一个三行的修复要先打开 Cursor、写一段 Prompt、等 Agent 生成再 review，使用率上去了，实际产出节奏反而慢了。

这三种异化的共同点是它们都不是某个具体的人在故意造数据。指标本身是有引力的，一旦被定义，被定义的那个动作就会往指标方向倾斜，这种倾斜不需要谁推动。

AI 时代组织治理的对象，资产也好、指标也好。都不是中立的客体，它们会反过来塑造组织自己。

15.3 中层管理的合理性塌了一半

中层管理这层结构，看起来像是组织天然就该有的，但它其实是被造出来的，有自己的物理前提。要看清这些前提在 AI 时代发生了什么，得退回历史看一眼它最初是怎么被造出来的。

两千年前，罗马军团已经在解决一个问题：怎么协调上千人在远离战场的地方完成一致的行动。他们的答案是层级嵌套。八个士兵共用一个帐篷、一头骡子，由一个什长管；十个什长上面是一个百夫长管百人队；六个百人队组成一个大队；十个大队组成一个五千人的军团。八到八十、八十到四百八十、四百八十到五千，每一层都有一个明确的指挥官，向上汇总信息，向下传递决策。这套结构今天叫管理跨度，理由是一个人能直接带的人就在三到八之间，超出这个范围他没法处理来自下面的信息。

罗马军团之后跨度比较大的一次组织演化是普鲁士的总参谋部。1806 年耶拿会战之后，普鲁士被拿破仑打得很惨，沙恩霍斯特和格奈森瑙这一批改革者重建普军时承认了一件事：你不能指望最高指挥官每次都是天才，你需要一个系统。他们建了总参谋部，让一群专门受训的参谋负责规划、信息处理和跨单位的协调。这是中层管理这个角色第一次被系统性地建出来，那些人的工作不是去前线打仗，是在中间这一层做信息路由。

中层管理这个角色后来从军队渗到铁路、从铁路渗到大公司，再被泰勒的科学管理优化、被麦肯锡的矩阵结构再分化，一路演化到今天的现代企业。形式越来越复杂，但底层的事情没变：中层管理的本质是信息路由。汇总下情、分发上意、协调横向、对齐节奏，这四件事是中层管理的本职工作。

这条规律有它非常具体的物理基础。一个组织一旦超出几十个人的规模，最高管理者没办法直接掌握每个角落正在发生什么；最底层的执行者也没办法直接知道整个组织在朝哪走；横向之间没办法靠每个人和每个人都直接对一遍来对齐。中间需要一层东西，把信息汇总上去、把决策分发下来、把各方对齐，让组织作为一个整体能动起来。两千年里，这一层只能由人来做，因为没有别的东西能做。

这件事在 AI 时代第一次有了变数。

不是说中层管理者会被某种 AI 工具替代，那是太具体的说法。要看清楚的是更大的背景：协调的工作，过去两千年没有非人选项；AI 是两千年以来第一次出现的非人协调机制。当一个系统能够持续地维护组织在做什么的全局画面，能够把上面的决策路由到下面，能把横向的状态对齐起来，那个原本必须由人来做的中间层，第一次有了被部分接管的可能。

中层管理这个角色身上有两类工作。一类是信息路由，统计周报、转达决议、协调会议、整理状态。这些工作的特征是有明确的输入输出，能被规则和模板覆盖，AI 能做的越来越多。这一半的合理性在塌。

另一类是判断兜底。那些信息不全的时候要拍板的事、那些跨多个利益方需要做权衡的事、那些数据看上去都对但直觉告诉你不对的事、那些需要在场感和情绪劳动才能推动下去的事。这些判断不是知识问题，是经验、嗅觉和责任的混合，AI 短期内做不了，这一半的合理性还在。

合在一起看，中层管理在 AI 时代不是消失，是被压薄。压薄的具体形态是：一个中层管理者一周的工作时间里，会更多地进行判断和兜底。判断你组织的中层会不会被 AI 蚕食，看他们一周的工作里信息搬运占多少、判断决策占多少。前者比例越高的中层，被压薄的速度越快。

之前讲过康威定律的方向被反转，那是团队层面的问题，时间常数是月。这里谈的是组织层的演化，时间常数是年。当 AI 把协调成本压下去，组织那些原本为了支撑高昂协调成本而建起来的结构，会一层层地被重新打量。组织过去两千年里那些为协调而存在的设计，第一次需要重新论证。

这件事不是未来某天会发生，已经在发生。一些远程优先、工程化程度高的公司，他们的组织扁平化已经走得相当深，中层管理的占比比传统公司低不少。

15.4 追责治理在 AI 时代失效了

中层被压薄，资产带着人格倾向，度量被指标本身腐蚀。这些变化叠到一起，会遇到一个谁也躲不开的具体问题：出了事谁负责。

执行层面，AI 写的代码最终还是通过一个具体的人提交进主干的，git blame 一下还是能定位到那个人，PR 是谁评审的、merge 是谁按下的，记录都在。提交者对自己提交的代码负责这条规则没有失灵，未来也不会失灵。一段 Agent 生成的代码出问题，和过去一段从 Stack Overflow 复制过来的代码出问题，在责任归属上没有本质区别。

但这条规则的形式没塌，它作为治理手段的有效性在降低。

传统时代，提交者对自己提交的每一行代码大体上心里有数：这行是我写的、为什么这么写、改了之后影响哪些地方，他能讲清楚。AI 时代不一样：同一段代码背后是一份 Skill、一份 Spec、一个具体的模型版本、几次 Prompt 迭代共同生成的产物。提交者按下 merge 之前能做的，是看一遍输出、跑一遍测试、做一次 Review，但他没办法对每一行代码做到过去那种我自己写出来的心里有数。他承担着责任，但他对产出物的掌控感比过去弱了一截。

出事就追提交者这套老办法的副作用开始显形，短期每次都找到了责任人看起来很稳，长期会让所有相关角色过度防御：写 Skill 的不敢写具体，评 PR 的不敢通过任何看起来有风险的代码，用 Agent 的会给每次产出都附一长串免责说明，按下 merge 的人会反复要求别人再 Review 一遍。每个角色都在保护自己，组织作为一个整体反而跑不动。这不是某个人觉悟低，是结构上的理性反应，当一个人要为他没法完全掌控的产出物负全部责任时，他唯一的自保手段就是降低产出。

承认这一点之后，问题就从怎么把责任划得更清楚变成了怎么让组织在追不动责的现实里跑得动。承认追责失效的组织走的是另一条路：一段代码出问题，主要的处置不是找那个最该负责的人，是先看哪一层兜底没接住，CI 没拦住的去补 CI，Review 没看出来的去重新分层，监控没预警的去补可观测层。每一层兜底都有自己的负责人，但他们承担的不是出事就背锅的责任，是这一层下次能不能更好地接住的责任。提交者依然是那次具体事故的责任人，但他被处理的方式不是扣绩效、写检讨，是和兜底层的负责人一起复盘哪一层可以加固。

每一次事故被处理成兜底机制的改进，而不是处理成某个人的污点，组织才会真的从事故里成长。责任的归属还在那个具体的人身上，但治理的重心从追责挪到了兜底。前者是对单次事故的清算，后者是对长期机制的维护，后者比前者难，也比前者重要。

15.5 组织作为一个会学习的系统

我们讨论了资产会腐烂、度量在被 Goodhart、中层在被压薄、追责治理在失效，会发现它们指向同一本质：AI 时代的组织治理不是在传统治理上加几条新规则，是治理对象本身的性质变了。

传统组织怎么积累认知？靠人。一个老员工在岗位上做了十年，他脑袋里那些这种 bug 一般出在哪，这个客户要按什么节奏沟通，这种架构选择三年后会出什么事的经验，是组织真正的认知。组织把这些经验留住的方式，是把人留住，加上一些文档、培训、师徒制度做辅助。这套机制有几个根深蒂固的弱点：慢，一个新人成长成有经验要好几年；有损，再勤奋的师傅也只能传出一部分自己脑袋里的东西；脆弱，一个关键员工离职，他十年的经验大概率跟着他走，组织重新积累一遍要再花很久。

这套机制管用了几百年，因为没有别的选项。组织能做的就是尽量留人、尽量把流程标准化、尽量把经验文档化，但底层那条经验在人脑里、跟人走的物理事实没法绕开。

AI 时代第一次让这件事有了变数。

每一次 PR 的 Review 意见、每一次故障的复盘、每一次 Agent 的失败和它被怎么纠正、每一次 Spec 的修订和它的理由，这些在过去都是发生过、被讨论过、然后慢慢淡出的视野。AI 时代它们可以被沉淀进 Skill、进知识库，被未来的每一次类似动作直接调用。沉淀这件事过去也存在，写文档、写 wiki、写复盘报告，但旧的沉淀方式有一个根本问题：写下来的东西要被人主动找到、读懂、应用，这中间有巨大的衰减；AI 时代沉淀下来的资产被 Agent 在合适的时刻自动调用，衰减几乎可以忽略。

这是一个根本变化。组织的认知，第一次有可能从一种依附在人身上的隐性资产，变成一种可工程化、可版本化、可持续迭代的显性资产。代码库可以被版本化、可以被回溯、可以被持续重构，组织的经验现在也可以。

这个判断听起来很美好，但它不是免费的。

一个组织要真的变成会学习的系统，前面四节讲的那些动作必须落地。资产要有人管、有人退，否则它腐烂得比积累速度更快；度量要避开 Goodhart 陷阱，否则学到的东西都是为了过指标而学的；中层要从信息路由转向判断兜底，否则学习成果在中层那里被卡住；模糊地带的兜底机制要建起来，否则组织在追责中失速。

组织的核心竞争力，不是它用了什么模型，也不是它招了什么人，而是它把多少个体经验转化成了组织资产。前者会随着模型迭代被快速拉平，后者会随着人的离开而流失，只有后者，会随着时间持续复利。

传统时代规模优势是组织最稳定的护城河。规模大意味着资金多、人才多、客户多、议价能力强，这些优势组合起来，小组织几乎不可能在长期竞争中赢过大组织。这条规律有它具体的理由，传统组织的认知和能力是和人头数线性相关的。十个人的组织能积累的经验是一份，一千个人能积累一百份。规模本身就是认知积累的体量。

AI 时代这条线性关系可能被打破。一个组织要是真的把经验沉淀成可被复用的资产，它的认知积累可以脱离人头数增长。一个三十人的团队如果代谢节奏好、资产健康度高、Owner 制稳定，它积累下来的有效经验可能比一个三百人但代谢失灵、资产带病、追责文化严重的团队还要多。规模在这种比较下不再是决定性因素。

这不是说大组织会立刻被小组织打败，那是太极端的预测。要看清楚的是更结构性的本质：未来会出现一批小团队大产出的公司，他们的产出不是靠人多，是靠他们组织本身就是一个会学习的系统。传统大厂的规模红利会被这批组织反向蚕食，蚕食的速度取决于大厂自己的代谢能力。

15.6 收束：从工具到能力底座

团队资产本身没有错，每一件资产被建起来的瞬间都是有理由的。问题不在它们各自的存在，问题在组织有没有能力让它们一起在动、一起在被代谢、一起对得上现在。当组织没有这种能力，资产清单就是一份越积越多的旧账；当组织有这种能力，同一份清单才会成为当前的知识快照。

AI 时代的优势，不来自谁先用上 AI，来自谁先把它真正变成自己的能力底座。工具谁都能买，能力底座只能自己建设。