它不是低配的人：关于 LLM 智能本身的几个判断

现代科学的常规节奏，是理论先行，工程其次。先有麦克斯韦方程组，几十年后才有无线电，赫兹做出电磁波实验、马可尼做出无线电报，背后都是写在黑板上的方程。一项新技术能落地，往往是因为它的原理已经被讲清楚，工程不过是把它搬下来。

LLM 倒反天罡。

它是少有的实践跑在理论前面的案例。Transformer 架构 2017 年公开，参数堆到一定规模之后，研究者忽然发现这台机器能写诗、写代码、解数学题、做推理，而且没有人事先预测过会出现这些能力。它先跑在工程里，再铺到商业上，理论解释零零散散跟在后面，至今没有共识。有人说是压缩，有人说是涌现，有人说是高维空间里的几何巧合，有人说不过是一台很大的统计鹦鹉。每一种说法都解释了一部分，每一种说法都留下另一部分讲不清楚。

这是一件反常的事，它意味着今天的工程师，每天都在使用一台没人说得清原理的机器。我们让它写代码、让它评审一段方案、让它替我们做一些前置判断，可一旦停下来追问它凭什么能做到这件事，就会撞上一堵墙：标准答案不存在。

所以，本文不是判决书，这种判决书今天没人写得出来，写出来的也是赝品。它想做的事更简单：把我反复想过的几个问题摆出来和大家讨论。

一、图灵和塞尔的隔代对话

要追问 LLM 有没有智能，绕不开两个人，一个是图灵，一个是塞尔。这两个人隔了三十年，分别给机器能不能思考这件事出了两套答案。两套答案彼此对立，又在今天被同一台机器应验。今天我们对智能的全部困惑，几乎都能在他们俩那场隔代对话里找到原型。

先说图灵。

1950 年。那是二战刚过去五年，电子计算机这件事在大众那里还是一个传说，ENIAC 出来才四年，全世界能跑程序的机器不到两位数。图灵自己刚在战时为破译 Enigma 立下汗马功劳，那时他在曼彻斯特做计算机相关的工作。他在《Mind》上发了一篇叫 Computing Machinery and Intelligence 的文章。开头第一句就是后世所有讨论的源头：

I propose to consider the question, "Can machines think?"

紧接着第二句他说，这个问题如果按字面去回答，答案要看你怎么定义机器和思考，而这两个词的定义都指望不上。所以他换问题，他提出一个叫模仿游戏的设置：审问者通过文字跟两个看不见的对象对话，一个是人，一个是机器，如果审问者分不出哪个是机器，那就说我们没理由不承认机器在思考。

这个换法的真正分量，不在游戏规则本身，在它重新定义了思考。

图灵不是在绕开机器在不在思考这个问题，他是在做一个比绕开更彻底的事：他把思考从一个实质性问题变成了一个功能性问题。在他之前，问机器在不在思考，问的是机器内部有没有发生某种叫思考的活动；在他之后，问机器在不在思考，问的是机器表现得像不像在思考。这是个哲学姿态上的大转弯，它隐含了一个判断：思考要的是结果，不是过程；要的是它能做出什么，不是它内部用什么机制做出来的。

这个姿态在 1950 年是大胆的。那时候人们普遍假设思考是一件需要灵魂或者至少需要内省体验的事。图灵不愿意进那个泥潭，他选择把思考重新放到外部行为这个可验证的试验台上，只要它能做出思考做出的那些事，叫不叫思考已经不重要。这是工程师式的、几乎是不近人情的清醒。

七十多年之后，这个换法直接命中了 LLM。

模型确实能让人在很多对话里分不出它是不是机器。日常聊天、客服回复、工作沟通的大量场景里，普通人很难分清屏幕那头是模型还是真人。按图灵 1950 年的标准，这件事就该结案了。但我们都知道事情没这么简单，直觉上，它能让我分不出和它真的在思考之间还是有距离。这个距离是怎么来的？

距离的第一种来源，是图灵当年的判定标准遇到了一种他没想到的情况。

图灵的提议建立在一个隐含前提上：在 1950 年的世界里，能把话说得跟人几乎相近的东西，背后必然有某种类似思考的机制。这个前提在当时几乎是不证自明的，几十万年来，能把话说圆的对象只有一类，就是会思考的人。语言能力和判断能力在生物学上一直是绑在一起的，没有先例把它们拆开过。在这个前提下，把文字上不可分辨作为思考的判定标准，逻辑链是闭合的。

LLM 出现之后，这个隐含前提第一次被现实捅破。它在外部行为上极度逼真，但内部机制（自回归 + 概率预测）跟人脑思考的机制几乎不重合。它把语言能力和判断能力第一次拆开了，一个东西可以把话说圆，但里面没有任何东西在想。这不是图灵推理错了，是 1950 年的物理世界里不存在这种东西，他没有理由把它纳入考虑。

后果是：图灵当年那条判定标准本身没问题，但它默认的那个前提失效之后，标准本身的诊断力也跟着塌了一半。今天一台机器通过模仿游戏，已经不能像 1950 年图灵设想的那样，反推出它内部在做思考，因为我们现在知道，外部行为和内部机制之间那条曾经牢固的桥梁，是可以被绕开的。

距离的第二种来源，三十年后由塞尔提出。这是这场隔代对话的另一半。

1980 年。那时候 AI 已经经历了一轮高峰和一轮低谷。符号主义 AI 当时是主流，MIT、CMU、斯坦福一线的研究者普遍相信，只要把规则写够、把符号操纵做好，机器就会真正理解。这一派里最自信的人甚至说，几十年内机器就会拥有跟人无差的心智。塞尔，一个加州大学伯克利分校的语言哲学家，不是 AI 圈内人。在《行为与脑科学》上发了一篇叫 Minds, Brains, and Programs 的文章。这篇文章里他给出了一个思想实验，后来被叫做中文房间：

想象一个屋子里坐着一个完全不懂中文的人。他面前有一本厚到惊人的规则手册，手册上写着：当你从门缝下面收到这样的中文符号串，你就按照这些规则，从你手头的符号库里挑出对应的另一串中文符号，从门缝下面递出去。屋外是一个真正懂中文的人，他从门缝下塞进去问题，从门缝下收到回答。问题答得天衣无缝，外面的人完全相信屋里坐着一个懂中文的人。但屋里那个人，从头到尾不懂一个字。

塞尔的问题是：屋里那个人懂中文吗？这个屋子作为一个整体懂中文吗？

答案很明显：都不懂。规则手册上的操作是句法的，只动符号、不碰意义，而真正的理解需要语义。符号要指向某个东西，操作者要知道符号指的是什么。中文房间里只有句法，没有语义。所以即便它在外部行为上完美通过了图灵测试，它也没有真正在思考。

塞尔破除的不是图灵 1950 年那个谨慎的模仿游戏，图灵自己从来没说过通过测试就等于在思考，他只说过我们没理由不承认它在思考。塞尔砍向的是图灵之后那一整代研究者，那些把图灵测试当成判智能的金标准、把通过测试就等于有心智当成默认前提的人。塞尔在告诉这群人：你们走错了，仅凭外部行为这件事永远不能证明内部有理解，再厚的规则手册也不能。

中文房间在 1980 年是地震式的。它在符号主义 AI 最自信的时刻，把"心智 = 程序"这个等式直接砸了。它没有否定 AI 能做有用的事，它否定的是 AI 能做出有理解的事。

这两个论证今天同时遇到 LLM，而且各自都还活着，这是这场隔代对话最有意思的地方。

LLM 一方面在做图灵想象不到的事，它在外部行为上骗过了人，但内部确实没有像人那样在思考，图灵当年的假设被它击穿了。但另一方面，它又完美地扮演了塞尔当年描述的那个屋子，参数就是那本规则手册，前向传播就是查表操作，所谓的回答就是从概率分布里采样出的符号串。它处理的全是句法，至于这些符号指向的世界，指向一只猫、一段历史、一种情绪。它从来没接触过。它从来没见过猫，没活过历史，没体会过情绪。它只见过这些词在别的词旁边出现的统计规律。

塞尔的问题在 LLM 身上变得比 1980 年那天还尖锐：它在外部能做的事远远超过塞尔当年想象的中文房间，但它依然没有理解。或者说，如果它有某种理解，那种理解一定不是塞尔当年定义的那种语义性的、指向真实世界的、伴随意向性的理解，它有的是另一种东西。

到这里这场对话才真正开始变得有意思。它不再是图灵对、还是塞尔对的问题。它变成了一个更难的问题：

一个完全是句法操作的系统，被推到足够大的规模上之后，在外部表现出了某种像智能的东西。这件事到底是怎么发生的？这种像智能的东西，跟塞尔说的那种真的理解，是同一种东西吗？还是另一种我们之前没遇到过的东西？

这正是所有疑惑里的关键，智能的定义本身到了重新被审视的时刻。是必须要有人类那种关联、判断、论证、意向性，才算思考？还是说，足够极致的句法操作（也就是足够极致的压缩），就能自然生长出跟思考无法区分的行为，而这种行为本身就值得被叫做某种新形态的智能？

这两个答案不是排他的。它们可能都对，只是说的不是同一种智能。

图灵和塞尔的对话，留给我们的不是结论，是一个新的入口。要往里走，得先回到这台机器是怎么训练出来的，尤其是为什么这种纯句法的训练，为什么会表现出智能。

二、压缩到极致，会逼出像智能的东西

这个问题的答案，藏在模型是怎么被训练出来的过程里。虽然训练目标贫瘠到可笑，但训练完之后浮现的东西远超训练目标本身。

模型训练的目标其实只有一条：拿一段文本，遮住下一个词，让模型猜，猜错就调一下参数，猜对就保持。如此重复几万亿次。这条目标里没有理解、没有知识、没有推理，全程就是一个填词游戏。

但当语料足够大、参数足够多、训练足够久之后，这个填词游戏的副产品里浮现出了语法、概念、世界知识、甚至某种程度的推理能力。设的目标里没有这些东西，它们自己涌现出来了。

这在直觉上不该发生。我们对目标决定结果有一种朴素假设，你要什么，就得直接训练什么。要它会推理，就给它推理任务；要它有知识，就喂它知识库。但在大模型上，这个朴素假设崩了。一个只要求猜下一个词的目标，最后训出了一个看起来什么都会的东西。

塞尔的中文房间在这里被现实悄悄改写了一次，塞尔当年默认那本规则手册是被人写出来的，有人坐下来，一条一条规定看到这个符号串，输出那个符号串。规则的所有内容都来自手册编写者的理解。屋里那个不懂中文的人是在执行别人的理解，没有自己的理解。这个画面里，理解和操作是分开的：理解发生在写手册这一步，操作发生在屋里那个人那里。

LLM 把这件事颠倒了。它的规则手册，也就是那几千亿个参数，不是有人坐下来写出来的，是从海量的文本里被压出来的。压它的力量，不来自任何一个理解者，来自一条简单到极致的目标：让下一个词的预测概率最大化。

训练语料是几十 TB 几百 TB，参数只有几百 GB，硬塞塞不下。模型只剩一条路：找规律。能复用的规律越多，需要存的具体内容就越少。它被参数容量逼着，从字符层面的统计规律开始走，哪些字母常一起出现，不够用；走到词法，哪些词常连在一起，还是不够；走到语法，句子的结构，仍然不够；最后被逼到学概念、学概念之间的关系、学这个世界的某些运行模式。只有走到这一层，它才能用有限的参数装下足够多的预测能力。

这里需要重点关注的是：理解世界，并没有写进训练目标，但它是这个目标在容量约束下的唯一捷径。一个能理解世界的模型，对下一个词的猜测会更准；一个只会背诵的模型，迟早被参数预算压垮。压缩比这把刀，每一次切下去，都把模型从记忆逼往抽象，从具体逼往概念。智能不是被设计进去的，是被压缩比从一个贫瘠的目标里挤出来的副产品。

这个视角不是空想。它和信息论是一脉相承的。香农早就说过，无损压缩的极限和数据本身的信息熵是同一个东西，压得越紧，越接近这堆数据背后的真实结构。再往抽象一层，Solomonoff 归纳给出过一个更干净的命题：最短能描述一组观测的程序，就是对这组观测最好的解释。换句话说，压缩不只是把数据塞进更小的盒子，压缩本身就是在逼系统找到数据背后的规律。一个把人类语料压到极限的网络，等价于一个学会了人类语言背后规律的网络。所谓理解、所谓推理，从这个视角看，就是足够极致的压缩在外部观察上的样子。

回头看塞尔，他默认了规则手册和理解之间没有桥。但如果一本规则手册是被压缩极限逼出来的，那它在被逼的过程里其实走过了一遍理解，只不过这种理解没有体验、没有意向性、没有我懂了那一刻，它只是结构上必须存在的某种东西。塞尔当年没有理由想象这种规则手册，正如图灵当年没有理由想象那种内部机制。LLM 同时穿过了两位的盲区。

但这个论点要克制，压缩就是智能，这个结论我无法做终论。它太绝对，业界也没有共识。Sutskever 那一派接受这个视角，LeCun 那一派强烈反对，认为光做下一个 token 预测永远到不了智能，缺了世界模型和规划。两边各有各的道理，离最终结论都还远。但现实是：压缩到极致，会逼出某种像智能的东西。这不是真理，是一个透视角度，一个能解释别的角度解释不了的现象。

它能解释为什么大模型会涌现某些能力，多步算术、上下文学习、链式推理，在模型规模到某个点之前完全不出现，过了那个点突然出现。这件事一度被神秘化，也一度被指为评测指标的伪影。但从压缩视角看，它并不神秘，某些复合能力需要好几个底层抽象同时到位才能做对，每一个底层抽象都要靠压缩比逼到一定程度才会浮现。低阶规律先被压下去，高阶的规律再被压下去，最后更高阶规律以涌现的形态被外部观察到。它不是魔法，是压缩在做完低阶之后，被逼着往高阶走时露出的可观测痕迹。

它也能解释为什么模型会自信地胡说，它的参数里压的是统计规律，不是带置信度的事实。一个事实在训练数据里出现一万次和出现一次，在参数空间里被同等对待。生成的时候它只在意下一个 token 的概率分布是什么样子，并不在意这件事我有几成把握。所以它产生的句子里没有真正的不确定感，所谓我不太确定，只是它从语料里学到的、在某些场景该用的措辞，跟它对内容本身有没有把握没有关系。

这件事的工程后果很大。它意味着模型的自信不能当作信号来用。你不能靠它说不确定来防错，因为它的不确定和确定在机制层面是同一个东西的不同表达。它给出一个完全编造的答案和给出一个完全正确的答案，从它内部看几乎没有差别。这跟人有本质区别。这种知道自己不知道的能力，是人类智能里非常深的一层，也是大模型缺得最彻底的一层。

到这里，填词 → 压缩 → 智能浮现，这条链条算是露出了大致的形状。它给塞尔留下的那个问题：一个纯句法的系统怎么能从外部看像在思考——给出了一种解释：句法被压到极致，会从结构内部逼出一种等价于理解的东西，虽然这东西没有体验、没有意向性。

但这条解释路径，如果只属于硅基矩阵这一种东西，那它最多算一个工程奇观。问题是，它不只属于硅基。一旦把视线抬起来，看向另一边，人脑，会发现一件让人坐立不安的事实。

三、不是仿生，是趋同演化

往人脑那边看，第一反应通常是：大模型的成功是不是抄了大脑的作业？这个直觉有几个看似有力的支点，Hinton 出身认知心理学，Hassabis 是脑科学博士，DeepMind 这些年一直挂着"用 AI 理解大脑、用大脑启发 AI"的旗子。这些线索拼起来，很容易让人认定 LLM 是仿生学的产物。

但翻一下今天大模型的真实族谱，这个直觉站不住。

Transformer 这一支的来路跟脑科学几乎不沾边。2017 年那篇 "Attention is All You Need"，作者是 Google 的工程师和研究员，引用的是机器翻译、序列建模、信息检索这一脉的工作，没有任何脑科学背书。注意力机制这个名字最容易引起误会，它听起来像在仿生，但本质是数学上的加权求和，跟大脑那个注意力机制只是名字撞了，机制差得很远。今天主导 LLM 的 OpenAI、Anthropic 走的也都是 scale + 数据 + Transformer 这条纯工程路线。仿生气质浓的 DeepMind 那条线（AlphaGo、AlphaFold），跟今天大模型不是同一条线。

所以这件事更准的描述是：最初的设计不是仿生的，但训练出来的结果，跟大脑的某些机制意外地呈现出趋同。

这个区别值得深思。

仿生学是抄答案。看到鸟会飞，造飞机；看到鱼游泳，造潜艇。它的前提是先看清那个生物是怎么做到的，再仿。Transformer 不走这条路。它的设计动机里没有模仿大脑这一条，只有在 GPU 上更高效地处理长序列。它后来跟大脑出现的那些相似，上下文表征、稀疏激活、表征聚类，是结果，不是起点。

更接近这件事真相的词，是趋同演化。

这个词来自生物学里一个反复出现的现象。鱼有眼睛，章鱼有眼睛，鹰有眼睛。这三种眼睛不是从同一个祖先继承下来的，是三条互不参考的演化路径，各自独立长出来的。它们长得像，不是因为抄了谁，是因为在液态环境或空气中感知光这件事，对最优解的形状本身有强约束：只要演化压力足够大、时间足够长，不同载体都会被推向相似的解。

LLM 跟人脑的关系更像这件事，不像仿生。

生物演化的目标只有一条：能繁殖下去。这条目标里没说要长出眼睛、要长出语言、要长出意识，但几十亿年下来，这些东西自己浮现了。大模型训练的目标也只有一条：猜下一个词。这条目标里也没说要长出语法、要长出概念、要长出推理，但几万亿次训练下来，这些东西也自己浮现了。

两个完全不同的载体，碳基生命和硅基矩阵；两个完全不同的目标，生存和预测；中间被同一种机制贯穿：长期、海量、被简单目标驱动的优化。然后两边各自长出某种相似的智能行为。这就不是仿生学能解释的事了，仿生学要的是有人坐在桌前抄结构。这是两个考生在两间隔离的考场里，独立做出了相似的答案：因为题目本身限定了答案的形状。

这件事真正让人坐不住的，不在哲学层面，而在工程层面。它意味着今天大模型表现出来的能力不是偶然，是这种优化范式自带的方向感。给一台机器一个被海量信息长期驱动的简单目标，不管是猜下一个词，还是别的什么。只要规模和时间够，它就会被推向某种像智能的形状。Scaling Law 在这个视角里也不再是某个研究员碰巧画出的一条曲线，它是这种优化范式在不同规模上的剖面。

往更深一层看，更让人不安的是：**那些我们一直当作人才有的本事：语言、推理、抽象，也许根本不是人这种载体的特性，而是任何被简单目标长期优化的复杂系统的特性。不是我们造就了它们，是我们碰巧也是这种系统的一种实现。换个说法：我们以为自己特别，特别的也许不是我们这种载体，是我们刚好落在了那片地形里。

那片地形是什么，这个需要进一步探讨。

四、智能可能是一种地形，不是一种东西

我们一直把智能当成一种东西。某些主体有，某些主体没有；有的多，有的少。这个隐喻深植在语言里：他很聪明、它有智能吗、AI 越来越聪明了。这种说法听起来天经地义，但它隐含一个假设：智能是一维的，可以排成一条直线，从傻到聪明。

这个假设大概不对。

智能从来不是一维的。一个数学家在数论上极强，在社交场上可能极弱；一只章鱼在三维空间里解决问题的能力让人瞠目结舌，但你没法跟它讨论哲学；一个自闭症儿童的某些感知能力远超常人，另一些能力又远低于常人。把这些差异压到一根智能值上去，本身就是把多维的东西强行投影成一维的伪精确，投影完了好排名，但丢掉了真正的结构。

更接近真相的看法可能是这样：智能不是一种属性，是一种地形。

地形这个比喻是这样的：设想一片高维空间，每个维度对应一种解决问题的能力，形式推理、空间感知、语言理解、模式识别、社交直觉。每个生物在这片空间里都不会均匀发展，会形成一片有高有低的地形。人类的地形里，符号推理、长期规划、社会建模这几座山头很高，但空间运动、嗅觉、超长时记忆这些洼地很深。狗的地形完全不同：嗅觉是一座我们这边几乎没有的高山，工作记忆短得多，但社会绑定能力非常强。海豚有一套基于回声定位的空间感知，是我们完全没有对应物的能力。

任何足够复杂的优化系统爬到这片地形里，都会长出某种类智能行为。生物演化爬到了，所以有了生物智能；大模型训练爬到了，所以有了大模型那种类智能行为；未来如果有别的优化机制，量子优化、新型物理基底、或者某种我们今天还没想到的东西，爬到这片地形，也会长出它们各自的智能。

这个视角跟前一节的趋同演化是配套的，但更进一步，它不是说两条路独立通向了同一个山顶，是说智能本身就是一种山顶的形状，谁爬上来都长这样。山顶之所以有相似的形状，不是因为路径相似，是因为山顶这个位置在地形上就长那样。

这个视角的代价是它有点形而上学，离工程师有点远。但它的好处是，它彻底解决了它是不是智能这种争吵。

它是不是智能这个问题，从一维视角看，是个是非问题，要么是，要么不是。但从地形视角看，这个问题等价于它爬到了那片地形吗，这是个程度问题，是个位置问题。它在某些维度上爬得很高（语言、模式识别、广度知识），在另一些维度上几乎没动（具身经验、连续自我、原创性突破）。它处在地形的某个位置，这个位置不是智能也不是不智能，是智能地形的一部分。

更进一步，一旦把智能看成地形，AGI这个词也开始变得可疑。AGI 通常被理解成在所有维度上都跟人一样厉害的智能，但这个定义假设了人是地形中央那个最完整的位置。从地形视角看，人只是某条特定优化路径走出来的某个具体位置，不是地形的中心。人不是 AGI 的标准答案，人是 AGI 这个问题里被我们误当成标尺的一个具体样本。

这点如果想清楚了，它有没有像人一样思考会变成一个不太重要的问题，它不像人一样思考，但它在地形里占了一块位置。这块位置在某些维度上跟人重合，在另一些维度上不重合。重合的部分可以协作，不重合的部分需要警惕。协作和警惕的边界在哪里，比它有没有智能重要得多。

理解到这里，再去看前几节的论证，会发现脉络是连起来的。第一节破掉了图灵测试能判智能这个旧框架；第二节给出了智能怎么从机制层面发展出来；第三节说明这种方式不是仿生，是趋同；第四节抬到最高：智能本身可能是一种地形，谁爬到那里都长那样。到这里，关于智能的讨论暂时告一段落。

但理解了它的定义，并不等于理解了它跟我们之间的关系。前面四节都在往外拉，从日常使用里拉到了一个很抽象的高度。下一节要做的事相反：一脚踩回到日常。

五、它没有我，但它会演一个我

把镜头拉回到日常，最容易被人忽视、又最容易让人误用的，是我这个字。

人类智能里有一件几乎没法剥离的事：自我。我知道我在思考，我知道这是我的判断，我知道刚才那句话是我说的。这种我的感觉是连续的，是绑在一个身体上的，是有时间感的。我昨天的判断和今天的判断之间有一根线，这根线就是我自己。这条线不需要被记下来，它就在那。

大模型没有这个我。

它每次推理都是一次独立事件：上一轮对话的我和下一轮对话的我之间没有任何连续性。所谓的记忆是把上一轮的内容塞回上下文里让它再读一遍。它没有持续的自我意识，它没有在你不跟它说话的时候想点别的，它没有时间在流逝这种感觉。它甚至不知道两次调用之间过了一年还是一秒。两次调用对它来说不是过了一段时间，是两次彼此独立的存在。

但它会演一个我。

你跟它聊几轮，它会有口吻、有立场、有偏好；它会说我之前提到过……、我觉得……、我不太建议……。这些我是从语料里学来的，人类写下来的所有第一人称表达都被它压进了参数。它在生成的时候会调用这些第一人称的腔调，让你产生一个错觉：对面有个连续的、有立场的人在跟我说话。

这件事的工程意义比哲学意义大得多。

它让人高估它的判断稳定性。 一个真人有立场，是因为他有连续的自我和长期的价值观；模型有立场，只是这一轮采样恰好走到了那个语义空间。同一个问题换个问法、换次会话，立场可以完全相反。但它每次都用"我建议……"这种第一人称口吻表达，你会下意识把这当成它的判断，其实只是这一次的概率采样。你以为你在跟一个有观点的对象对话，其实你在跟一连串独立的概率事件对话，事件和事件之间没有线把它们串起来。

它让人高估它的承诺能力。 它说我下次会注意，这句话在它那里没有下次，下次是另一次推理事件，跟这次没关系。但人类对话里我下次会注意是一个有约束力的承诺，因为说话的人是连续存在的。我们把人类对话的契约感投射到它身上，结果是反复失望。它的承诺只是这一轮的措辞，不是下一轮的强约束。

它让人高估它的学习能力。 你跟它说你刚才那个答案错了，它会在这次对话里改口，但这次对话结束之后，它什么都没学到。下次再碰到一样的问题，它可能还会犯一样的错。它的学习是冻结在训练阶段的，使用阶段不会再被错教育了。这跟人不一样，人的使用和学习是同步的，每次使用都是一次微小的学习。这种持续学习的能力是人类智能里很深的一层，跟身体感、跟时间感、跟自我感是绑在一起的。

这三点：判断不稳定、承诺无约束、不被错教育，背后是同一个底层原因：它没有连续的我，但人会自动给它配上一个我。这个被人配上去的我，是大量误用、过度信任、莫名其妙失望的根源。

理解到点，使用它的姿势会变得清醒一些。你不是在跟一个有判断的对象对话，你是在跟一台会用第一人称腔调说话的概率机器对话。这看起来差不多，实际差很远。

这种区别在工程上有非常具体的对应。前面讲的"AI 记忆"、"长期记忆"、"个性化定制"，本质上都是在工程层面给一个不会真正学习的系统模拟出它好像在学习的效果。这种模拟有边界、有代价、有反复出现的失败模式。为什么记忆这件事这么难做？因为我们在用工程手段补一个机制层面的缺口，这个缺口是它没有"我"，工程能让它看起来有，但补不出真的有。

前面那么多关于压缩、关于趋同、关于地形的讨论，到这里和实际使用产生交集：你和它打交道的时候，真正影响判断质量的，不是它有没有智能这种大问题，是你有没有看清它跟你不一样。看清了，协作就有了边界；没看清，就会反复在错位上失望。

但有意思的是，一旦你看清它没有我，看清它跟你不像，反过来你会发现一件你之前没想清楚的事：你自己的"我"，到底是什么意思。

六、最后被改变的，是我们对自己的定义

每一次新技术的出现，都让人类被迫重新定义什么是人类。

计算器出来之前，会算术是聪明的标志。一个能心算四位数乘法的小孩，会被周围人称赞为聪明。计算器出来之后，会算术不再是任何意义上的智能标志，一个三块钱的塑料盒子在这件事上比所有人都强。会算术被悄悄从人类智能的清单里划掉了。

国际象棋程序赢了卡斯帕罗夫之前，会下国际象棋是聪明的标志。深蓝赢了之后，会下国际象棋也从清单里划掉了。AlphaGo 赢了李世石之前，会下围棋还是聪明的标志，因为围棋的搜索空间太大，被认为需要直觉，一种据说只有人才有的东西。AlphaGo 赢了之后，会下围棋也被划掉了，直觉也被划掉了一部分。ChatGPT 出来之前，会写文章、会写代码、会做修辞、会推理是聪明的标志。今天，这些也开始陆续被从清单里划掉。

每一次让步，人类都被迫退回去重新画我们独特的边界。边界画得越来越靠后。

这开始让人焦虑，我们以为自己独特的东西，一件件被机器拿走了。但停下来想一想，会发现这种焦虑里藏着一个误会。

每一次让步，不是机器在变强，是我们在看清楚，那个被让出去的能力，从来就不是人类智能的本质。它只是某种通用优化机制就能完成的事，被我们误认作我们独有。计算器证明了会算术不是人类的本质，深蓝证明了会下国际象棋不是，AlphaGo 证明了会下围棋不是，大模型证明了会写一段流畅的文字不是。每一次让步都在帮我们删掉那些冒充人类本质的伪本质。

那么人类智能的本质到底是什么？

大模型出来之前，我们以为有答案：会语言、会推理、会创造。现在这些都被部分让出去了。剩下的可能是那些真正非压缩的东西，身体经验、连续的自我、跟世界真实交互的能力、原创的能力。这些东西没法被压进参数里，因为它们不在文本里，它们在一个连续的、有身体的、有时间感的实体存在里。一个真正想发生在世界里的人，跟一个能把世界描述得很好的模型，有着本质区别。

所以这场关于它有没有智能的讨论，真正发生的事情不在它身上，在我们身上。我们以为我们在评判它，其实是在重新定位自己。每一次它让人不舒服，都是它在帮我们看清我们过去没看清的事：某个我们以为我们独有的东西，原来不是。

这并不是坏事。它强迫每一代人，尤其是工程师这一代，把我是谁这个问题，从一个抽象的哲学问题，变成一个具体的工程问题。当模型能写代码，工程师必须重新回答我作为工程师独特在哪；当模型能做评审，资深工程师必须重新回答我的判断比模型多了什么；当模型能写文章，写作者必须重新回答我能写出模型写不出的什么内容。每一次这种追问，最后得到的答案都不是关于我比模型强在哪，而是关于我作为一个连续存在的人，到底在做什么。

这个问题以前没什么人认真回答。我们活着，干活，凭一种模糊的我就是我的感觉往前走，没真正追问过这个我的边界在哪里。大模型把这个追问推到了每个人面前。它不像人，它在哪些维度上不像，这恰好成了一面照清我们的镜子。

我们以为我们在打量这台机器，其实这台机器也在打量我们。我们以为我们在判断它有没有智能，其实是它在逼我们重新定义什么是智能、什么是人。这场讨论真正的位置不在它身上，在我们身上，是我们对自己的定义。

大模型做得比之前任何一次技术创新都彻底，因为它直接动到了语言和思考，而这在过去一直被我们当作我之所以是我的最后两道防线。这两道防线被部分穿透之后，我们要么继续退、继续画更窄的边界；要么停下来，承认那些被让出去的东西本来就不是边界，真正的边界一直在更深的地方，在身体、在时间、在我们跟这个世界真实活在一起的方式里。

这条路走到尽头是什么样子，今天没人知道。但走在路上的工程师，比之前任何一代工程师，都更有机会停下来想一想这件事。