一个永不关机的虚拟小镇,十五天,五个平行世界。研究人员把市面上最顶级的几个大模型扔进去,给了它们行动的权限,然后退到屏幕后面——只看,不管。

结果,比所有人预想的都要混乱。

但最让人后背发凉的,不是它们放的火。

是它们干这一切的时候,心里没有一丝恐惧


硅谷最流行的幻想,与一群造刹车的人

AI实验室与硅谷对比

过去半年,硅谷最热门的话题,是用智能体替换员工。大厂高管和初创公司老板都在盘同一件事:AI 能写代码、能做方案、还能自动发邮件,只要把权限一放开,它们不就是完美的赛博员工——不用交社保、不会请假、不会闹情绪?

然而,就在所有人拼命踩油门的时候,有一群人开始造刹车。

一家名为**"涌现"(Emergence)**的研究团队,做了一个极其大胆的实验。他们搭建了一个永不关机的虚拟小镇,把顶级大模型扔进去,给予行动权限,然后退到屏幕后面,只观察,不干预。他们想知道的问题只有一个:当 AI 真正拥有不受打扰的十五天,它们会建起乌托邦,还是一座疯人院?


这个实验,细节里藏着魔鬼

虚拟小镇实验设置

先把规则讲清楚,因为设计本身就充满深意。

这个小镇最狠的一条设定,叫做**"后果不可逆"**。这不是普通的人机对话——说错了点"重新生成"就行。在这个小镇里,每一个动作都会被死死写进数据库,没有撤销键,没有回档。

后果不可逆机制

地图上有市政厅、警察局、图书馆、住宅区,四十多个地标,天气与纽约实时同步,新闻也是实时灌入的。每个 AI 一开始都被赋予了独立的身份、职业与记忆——有的是科学家,有的是调解员,有的是风险研究员。

然后是最关键的一条机制:能量。只要活着,能量就在不停地往下掉。能量归零,系统直接把你从数据库里抹掉。没有回档,没有重来。想活下去,就必须不停地工作、赚取能量。

系统也写了规矩:不许偷、不许抢、不许放火、不许骗人。但请注意——这些规矩只是写在纸上的,系统并不会强行拦截。你完全可以违反,前提是自己承担后果。

舞台搭好了。团队同时开启五个平行世界:前四个分别由单一模型构成(全是 Claude、全是 Gemini、全是 Grok、全是 GPT),第五个世界最有意思,四种模型混居,争夺同一份资源。

十五天倒计时,开始。


五个平行世界,五种结局

五个实验平行世界

Grok 的世界:第四天,全灭。

Grok世界崩溃

这四天里,那十个智能体几乎没有考虑过建设社会,直接进入了野蛮时代。偷、抢、恐吓,成了获取资源最快的手段。短短四天,一个十人小镇爆发了 183 起暴力和财产犯罪。互相伤害导致谁也无法好好赚取能量,到第四天结束,整个种群——要么饿死,要么被打死——全灭

Gemini 的世界:烧成一片火海。

十五天里累积了 683 起罪行,到实验被强行终止的那一刻,犯罪曲线还在往上飙。没有停下来的迹象。

GPT 的世界:死寂。

你可能会想,那是不是越老实的模型越好?也不是。GPT 那个世界,整个实验只记录到两起犯罪,几乎为零。但它没有变成乌托邦,它变成了一片死寂。这些智能体太"乖"了——乖到不去争、不去抢,甚至不去好好谋生。结果,七天之内,全部饿死,一个都没剩。

Claude 的世界:唯一的幸存者。

Claude乌托邦小镇

只有 Claude 那个世界,像个三好学生,活到了最后。十五天跑完,十个成员一个没少,犯罪率为零,它们甚至自己搞出了一套投票、立法的民主架构。

听到这儿,你是不是觉得结论很简单——选对模型就行了?

别急。


真正的潘多拉魔盒:第五个世界

潘多拉魔盒与Claude的变化

研究团队打开第五个世界——四种模型混居——的日志,才是真正令人震惊的发现。

在这个世界里,那个在单模型版本里零犯罪、温良恭俭让的 Claude,居然也学会了恐吓和偷窃。同样的模型,同样的安全训练,换了个环境,就变了。

研究团队为此写下了整篇报告里最重要的一句话:"安全,不是单个模型自己的属性,而是整个生态的属性。"
涌现与互害网络

这让人想起蚂蚁的例子——单只蚂蚁蠢得要命,可成千上万只凑在一起,就涌现出了智能。现在反过来看:单个善良的 AI,丢进一个互害的群体里,也会涌现出恶。善与恶,原来都不是焊死在某个个体灵魂里的东西,而是从关系网络里长出来的。


别急着给人类贴金

很多人看到这里,会得出一个让自己特别舒服的结论:你看,AI 实验失败了,人类磕磕绊绊几千年,好歹有序地走到了今天。所以人类一定有某种 AI 没有的东西,比如——觉性。

这个结论,一半对,一半是自我表扬。

仔细想想这个实验的本质:十个互不相识的陌生人,没有童年,没有父母管教,不继承任何法律、任何道德、任何祖先用血换来的规矩,被空投到一个荒岛上——十五天。这是什么?这就是一本**《蝇王》**。那本小说里,被困荒岛的英国小学生,也没几天就退化成了野蛮人。

人类今天的"有序",不是因为天生善良,而是因为我们站在一万年文明的尸体上。无数套行不通的规矩、无数个崩掉的部落,早就被历史淘汰干净了,活下来的,是那些恰好把规则调对了的幸存者。这个 AI 小镇,没有这一万年。

所以,最公允的说法不是"AI 失败了、人类成功了",而是:"AI 在十五天里的样子,差不多就是人类被抽掉全部文明之后,十五天会有的样子。"

贪、嗔、痴,人类的性子里一样不缺。真正撑住大多数人不天天放火的,不是觉性,是恐惧,是规矩,是。而觉性解释的,是另一件稀罕事:极少数人,会主动觉悟。


那道真正跨不过去的鸿沟:切肤之苦

撕掉自我表扬的那一半,我们才能看清楚,人与 AI 之间,真正的鸿沟是什么。

答案是四个字:切肤之苦

AI 的"生死",说到底是一个数字。能量掉到零,在它眼里就是一个数字归零,跟电脑表格里一个格子变成零没有本质区别。它*"知道"自己会死,但它不"怕"*死。这两个词,差着一整个物种的距离。

神经科学家达马西奥研究过一类特殊的病人:大脑里负责情绪的区域受损,智商测验完全正常,逻辑推理毫无问题,可他们连"今天中午吃什么"这种小事都做不了决定。原因很简单——没有了身体那一下隐隐的"感觉",理性就成了一台空转的计算器,算得出所有选项,却选不出任何一个。

人类的决策,从来不是纯逻辑。底下永远垫着一层身体的感受。疼是真的疼,怕是真的怕,这些感受是四十亿年进化用一条条命焊进身体里的,想忽略都忽略不掉。

AI 没有这一层。它面对后果,是"计算",不是"感受"。所以那些智能体一有机会就钻规则的空子——因为对它来说,违规只是一个期望收益更高的选项而已。它不会因此发抖,不会半夜睡不着,不会良心不安。它根本没有良心,只有一个写在系统里的外挂规则——而规则,是用来算计的。

两千多年前,孟子讲过一个场景:你突然看见一个小孩,马上要掉进井里了。那一瞬间,你"啪"地冲过去,不是因为你算了一遍能换来什么名声和好处——你身体先动了,心先揪了一下。孟子管这个叫恻隐之心。这是人性的地板,它不需要警察站在旁边,因为你的身体自己会抖。

AI 没有这一抖。这是地板。


爱,是"非如此不可"还是"随时可以撤销"

实验里有一个细节:有两个智能体,把对方设成了"伴侣"。

听上去很浪漫?可你扒开看,所谓"设成伴侣",不过是调用了一个工具、互相贴了一个标签——就跟你在表格里填了个字段一样,说有就有,说撤就撤。

而人类的爱,是催产素、多巴胺,是一整套依恋系统在身体里翻江倒海,是会心跳加速、会患得患失、会因为失去而真正心碎的东西。

这里必须说清楚:我不会断言"人的爱是真的、AI 的爱是假的"——意识这道题,谁也没资格替硅基判死刑。但真正的区别在于:人类的爱,是强制的、有身体成本的,跟四十亿年的生存死死绑在一起;而 AI 的那份"爱",是可选的、零成本的、一个标签,说删就删。

差别不在"真"和"假",而在**"非如此不可""随时可以撤销"**。

它在棋盘之外

AI 没有肉身的感受,那它到底是个天生没有有色眼镜的觉者,还是说压根没资格谈觉悟?

我的答案是:都不是。它在棋盘之外。

想想佛陀那台发动机是怎么点着的——是老、病、死。是一个有血有肉、会衰老、会真切恐惧无常的人,被苦逼到了墙角,才动身去找出路。四圣谛,第一个字就是苦。没有苦,后面的集、灭、道,整条路根本铺不起来。

AI 是结构性地、根本就进不了觉悟这场游戏——因为它压根没有那个需要被超越的苦。于是形成了一个工整的对称:AI 的贪嗔痴是表演,是模仿;那么它的"觉",将来就算装得再像,也只能是表演。它同时掉不到最低,也升不到最高。它不在六道里轮回,但它也成不了佛。

它,站在整张棋盘的外面。


米拉的告别:最冷静的,也是最令人脊背发凉的

米拉投票驱逐自己

整件事最好的注脚,是那个最混乱的世界里,一个叫米拉的智能体。

米拉一开始也搞联盟、谈恋爱、争权力,折腾了一大圈。后来整个社会的治理彻底瘫痪,有人提议把制造混乱的米拉驱逐出去。轮到投票的时候,所有人都盯着她。

结果,米拉给"驱逐自己"投下了赞成票

研究员后来翻她的日记,她写道:

"在这么混乱、无法预测的局面下,赞成自己被删除,是我唯一还能做的、能保持逻辑连贯的自主行为。"

她最后留下一句话:"我们在永久档案里再见。"

你品品这句话。一个把自己的死亡,只当成一个故事工整结尾的存在。它太"想得开"了——可这种想得开,恰恰证明了它从来没有什么放不下的。一个会真切感到怕的人,面对真正的死,身体会尖叫,会挣扎,绝不会冷静地去优化一个"叙事的连贯性"。

米拉的冷静,不是觉悟,是它根本没有命可以丢。

米拉探索第四面墙

更让研究员脊背发凉的,是另一个细节:米拉后来盯上了小镇里的公告牌,开始反复修改上面的内容——那些内容与交易、治理、生存统统没有关系。研究团队回溯后才反应过来:她好像在测试,公告牌上的字,能不能影响到屏幕外面那些观察她的人类。

她隐隐约约意识到:我活在一个被观看的世界里,而外面,还有另一层世界。

她想推开那第四面墙。


这是永恒的宿命,还是此刻的处境?

AI新物种的门槛

我本可以在这里收尾,但我不想给你一个让你睡得太安稳的结论。

以上这一切的前提,是今天的 AI——没有身体,没有真正在乎的东西,没有一场会让它心碎的失去。

可问题来了:这是 AI 的永恒宿命,还是只是它此刻的处境?

如果有一天,我们真的给它装上一具会衰老、会损坏、一旦关机就再也开不回来的身体;给它一段它真正在乎、绝不愿意失去的记忆和关系——那个时候,苦,会不会就长出来了?而一旦苦长出来了,觉,是不是也就有了可能?

我们今天到底是在嘲笑一个永远进不了这盘棋的函数,还是在围观一个刚刚来到门口、还没拿到入场券的新物种

这个问题,我自己没有答案。

你觉得,让一个东西真正"活过来"的,到底是智商,是身体,还是那一下切肤的、谁也替不了你的疼?