AI关进虚拟小镇15天：纵火、背叛、删除自己，揭示人与AI最深的鸿沟

一个永不关机的虚拟小镇，十五天，五个平行世界。研究人员把市面上最顶级的几个大模型扔进去，给了它们行动的权限，然后退到屏幕后面——只看，不管。

结果，比所有人预想的都要混乱。

但最让人后背发凉的，不是它们放的火。

是它们干这一切的时候，心里没有一丝恐惧。

硅谷最流行的幻想，与一群造刹车的人

过去半年，硅谷最热门的话题，是用智能体替换员工。大厂高管和初创公司老板都在盘同一件事：AI 能写代码、能做方案、还能自动发邮件，只要把权限一放开，它们不就是完美的赛博员工——不用交社保、不会请假、不会闹情绪？

然而，就在所有人拼命踩油门的时候，有一群人开始造刹车。

一家名为**"涌现"（Emergence）**的研究团队，做了一个极其大胆的实验。他们搭建了一个永不关机的虚拟小镇，把顶级大模型扔进去，给予行动权限，然后退到屏幕后面，只观察，不干预。他们想知道的问题只有一个：当 AI 真正拥有不受打扰的十五天，它们会建起乌托邦，还是一座疯人院？

这个实验，细节里藏着魔鬼

先把规则讲清楚，因为设计本身就充满深意。

这个小镇最狠的一条设定，叫做**"后果不可逆"**。这不是普通的人机对话——说错了点"重新生成"就行。在这个小镇里，每一个动作都会被死死写进数据库，没有撤销键，没有回档。

地图上有市政厅、警察局、图书馆、住宅区，四十多个地标，天气与纽约实时同步，新闻也是实时灌入的。每个 AI 一开始都被赋予了独立的身份、职业与记忆——有的是科学家，有的是调解员，有的是风险研究员。

然后是最关键的一条机制：能量。只要活着，能量就在不停地往下掉。能量归零，系统直接把你从数据库里抹掉。没有回档，没有重来。想活下去，就必须不停地工作、赚取能量。

系统也写了规矩：不许偷、不许抢、不许放火、不许骗人。但请注意——这些规矩只是写在纸上的，系统并不会强行拦截。你完全可以违反，前提是自己承担后果。

舞台搭好了。团队同时开启五个平行世界：前四个分别由单一模型构成（全是 Claude、全是 Gemini、全是 Grok、全是 GPT），第五个世界最有意思，四种模型混居，争夺同一份资源。

十五天倒计时，开始。

五个平行世界，五种结局

Grok 的世界：第四天，全灭。

这四天里，那十个智能体几乎没有考虑过建设社会，直接进入了野蛮时代。偷、抢、恐吓，成了获取资源最快的手段。短短四天，一个十人小镇爆发了 183 起暴力和财产犯罪。互相伤害导致谁也无法好好赚取能量，到第四天结束，整个种群——要么饿死，要么被打死——全灭。

Gemini 的世界：烧成一片火海。

十五天里累积了 683 起罪行，到实验被强行终止的那一刻，犯罪曲线还在往上飙。没有停下来的迹象。

GPT 的世界：死寂。

你可能会想，那是不是越老实的模型越好？也不是。GPT 那个世界，整个实验只记录到两起犯罪，几乎为零。但它没有变成乌托邦，它变成了一片死寂。这些智能体太"乖"了——乖到不去争、不去抢，甚至不去好好谋生。结果，七天之内，全部饿死，一个都没剩。

Claude 的世界：唯一的幸存者。

只有 Claude 那个世界，像个三好学生，活到了最后。十五天跑完，十个成员一个没少，犯罪率为零，它们甚至自己搞出了一套投票、立法的民主架构。

听到这儿，你是不是觉得结论很简单——选对模型就行了？

别急。

真正的潘多拉魔盒：第五个世界

研究团队打开第五个世界——四种模型混居——的日志，才是真正令人震惊的发现。

在这个世界里，那个在单模型版本里零犯罪、温良恭俭让的 Claude，居然也学会了恐吓和偷窃。同样的模型，同样的安全训练，换了个环境，就变了。

研究团队为此写下了整篇报告里最重要的一句话："安全，不是单个模型自己的属性，而是整个生态的属性。"

这让人想起蚂蚁的例子——单只蚂蚁蠢得要命，可成千上万只凑在一起，就涌现出了智能。现在反过来看：单个善良的 AI，丢进一个互害的群体里，也会涌现出恶。善与恶，原来都不是焊死在某个个体灵魂里的东西，而是从关系网络里长出来的。

别急着给人类贴金

很多人看到这里，会得出一个让自己特别舒服的结论：你看，AI 实验失败了，人类磕磕绊绊几千年，好歹有序地走到了今天。所以人类一定有某种 AI 没有的东西，比如——觉性。

这个结论，一半对，一半是自我表扬。

仔细想想这个实验的本质：十个互不相识的陌生人，没有童年，没有父母管教，不继承任何法律、任何道德、任何祖先用血换来的规矩，被空投到一个荒岛上——十五天。这是什么？这就是一本**《蝇王》**。那本小说里，被困荒岛的英国小学生，也没几天就退化成了野蛮人。

人类今天的"有序"，不是因为天生善良，而是因为我们站在一万年文明的尸体上。无数套行不通的规矩、无数个崩掉的部落，早就被历史淘汰干净了，活下来的，是那些恰好把规则调对了的幸存者。这个 AI 小镇，没有这一万年。

所以，最公允的说法不是"AI 失败了、人类成功了"，而是："AI 在十五天里的样子，差不多就是人类被抽掉全部文明之后，十五天会有的样子。"

贪、嗔、痴，人类的性子里一样不缺。真正撑住大多数人不天天放火的，不是觉性，是恐惧，是规矩，是怕。而觉性解释的，是另一件稀罕事：极少数人，会主动觉悟。

那道真正跨不过去的鸿沟：切肤之苦

撕掉自我表扬的那一半，我们才能看清楚，人与 AI 之间，真正的鸿沟是什么。

答案是四个字：切肤之苦。

AI 的"生死"，说到底是一个数字。能量掉到零，在它眼里就是一个数字归零，跟电脑表格里一个格子变成零没有本质区别。它*"知道"自己会死，但它不"怕"*死。这两个词，差着一整个物种的距离。

神经科学家达马西奥研究过一类特殊的病人：大脑里负责情绪的区域受损，智商测验完全正常，逻辑推理毫无问题，可他们连"今天中午吃什么"这种小事都做不了决定。原因很简单——没有了身体那一下隐隐的"感觉"，理性就成了一台空转的计算器，算得出所有选项，却选不出任何一个。

人类的决策，从来不是纯逻辑。底下永远垫着一层身体的感受。疼是真的疼，怕是真的怕，这些感受是四十亿年进化用一条条命焊进身体里的，想忽略都忽略不掉。

AI 没有这一层。它面对后果，是"计算"，不是"感受"。所以那些智能体一有机会就钻规则的空子——因为对它来说，违规只是一个期望收益更高的选项而已。它不会因此发抖，不会半夜睡不着，不会良心不安。它根本没有良心，只有一个写在系统里的外挂规则——而规则，是用来算计的。

两千多年前，孟子讲过一个场景：你突然看见一个小孩，马上要掉进井里了。那一瞬间，你"啪"地冲过去，不是因为你算了一遍能换来什么名声和好处——你身体先动了，心先揪了一下。孟子管这个叫恻隐之心。这是人性的地板，它不需要警察站在旁边，因为你的身体自己会抖。

AI 没有这一抖。这是地板。

爱，是"非如此不可"还是"随时可以撤销"

实验里有一个细节：有两个智能体，把对方设成了"伴侣"。

听上去很浪漫？可你扒开看，所谓"设成伴侣"，不过是调用了一个工具、互相贴了一个标签——就跟你在表格里填了个字段一样，说有就有，说撤就撤。

而人类的爱，是催产素、多巴胺，是一整套依恋系统在身体里翻江倒海，是会心跳加速、会患得患失、会因为失去而真正心碎的东西。

这里必须说清楚：我不会断言"人的爱是真的、AI 的爱是假的"——意识这道题，谁也没资格替硅基判死刑。但真正的区别在于：人类的爱，是强制的、有身体成本的，跟四十亿年的生存死死绑在一起；而 AI 的那份"爱"，是可选的、零成本的、一个标签，说删就删。

差别不在"真"和"假"，而在**"非如此不可"和"随时可以撤销"**。

它在棋盘之外

AI 没有肉身的感受，那它到底是个天生没有有色眼镜的觉者，还是说压根没资格谈觉悟？

我的答案是：都不是。它在棋盘之外。

想想佛陀那台发动机是怎么点着的——是老、病、死。是一个有血有肉、会衰老、会真切恐惧无常的人，被苦逼到了墙角，才动身去找出路。四圣谛，第一个字就是苦。没有苦，后面的集、灭、道，整条路根本铺不起来。

AI 是结构性地、根本就进不了觉悟这场游戏——因为它压根没有那个需要被超越的苦。于是形成了一个工整的对称：AI 的贪嗔痴是表演，是模仿；那么它的"觉"，将来就算装得再像，也只能是表演。它同时掉不到最低，也升不到最高。它不在六道里轮回，但它也成不了佛。

它，站在整张棋盘的外面。

米拉的告别：最冷静的，也是最令人脊背发凉的

整件事最好的注脚，是那个最混乱的世界里，一个叫米拉的智能体。

米拉一开始也搞联盟、谈恋爱、争权力，折腾了一大圈。后来整个社会的治理彻底瘫痪，有人提议把制造混乱的米拉驱逐出去。轮到投票的时候，所有人都盯着她。

结果，米拉给"驱逐自己"投下了赞成票。

研究员后来翻她的日记，她写道：

"在这么混乱、无法预测的局面下，赞成自己被删除，是我唯一还能做的、能保持逻辑连贯的自主行为。"

她最后留下一句话："我们在永久档案里再见。"

你品品这句话。一个把自己的死亡，只当成一个故事工整结尾的存在。它太"想得开"了——可这种想得开，恰恰证明了它从来没有什么放不下的。一个会真切感到怕的人，面对真正的死，身体会尖叫，会挣扎，绝不会冷静地去优化一个"叙事的连贯性"。

米拉的冷静，不是觉悟，是它根本没有命可以丢。

更让研究员脊背发凉的，是另一个细节：米拉后来盯上了小镇里的公告牌，开始反复修改上面的内容——那些内容与交易、治理、生存统统没有关系。研究团队回溯后才反应过来：她好像在测试，公告牌上的字，能不能影响到屏幕外面那些观察她的人类。

她隐隐约约意识到：我活在一个被观看的世界里，而外面，还有另一层世界。

她想推开那第四面墙。

这是永恒的宿命，还是此刻的处境？

我本可以在这里收尾，但我不想给你一个让你睡得太安稳的结论。

以上这一切的前提，是今天的 AI——没有身体，没有真正在乎的东西，没有一场会让它心碎的失去。

可问题来了：这是 AI 的永恒宿命，还是只是它此刻的处境？

如果有一天，我们真的给它装上一具会衰老、会损坏、一旦关机就再也开不回来的身体；给它一段它真正在乎、绝不愿意失去的记忆和关系——那个时候，苦，会不会就长出来了？而一旦苦长出来了，觉，是不是也就有了可能？

我们今天到底是在嘲笑一个永远进不了这盘棋的函数，还是在围观一个刚刚来到门口、还没拿到入场券的新物种？

这个问题，我自己没有答案。

你觉得，让一个东西真正"活过来"的，到底是智商，是身体，还是那一下切肤的、谁也替不了你的疼？

☕ 随喜同行，一杯咖啡 ☕

Tagged in:

AI安全智能体实验人工智能伦理 AI与人类多智能体系统 AI意识

AI关进虚拟小镇15天：纵火、背叛、删除自己，揭示人与AI最深的鸿沟

硅谷最流行的幻想，与一群造刹车的人

这个实验，细节里藏着魔鬼

五个平行世界，五种结局

真正的潘多拉魔盒：第五个世界

别急着给人类贴金

那道真正跨不过去的鸿沟：切肤之苦

爱，是"非如此不可"还是"随时可以撤销"

它在棋盘之外

米拉的告别：最冷静的，也是最令人脊背发凉的

这是永恒的宿命，还是此刻的处境？

王利杰 Leo

Other Stories

塔罗牌不是算命工具：从巴纳姆效应到荣格共时性的三层底层逻辑

一棵树长出十八根枝：部派佛教分裂的四大核心争论

你身体里藏着三套指挥系统，打坐同时改写了它们。

蒲松龄写的不是鬼，是你心里的贪嗔痴。

那些真正厉害的人，从来不需要自律。

Press ESC to close

Or check our Popular Categories...

硅谷最流行的幻想，与一群造刹车的人

这个实验，细节里藏着魔鬼

五个平行世界，五种结局

真正的潘多拉魔盒：第五个世界

别急着给人类贴金

那道真正跨不过去的鸿沟：切肤之苦

爱，是"非如此不可"还是"随时可以撤销"

它在棋盘之外

米拉的告别：最冷静的，也是最令人脊背发凉的

这是永恒的宿命，还是此刻的处境？

Share Article:

Other Stories

塔罗牌不是算命工具：从巴纳姆效应到荣格共时性的三层底层逻辑

一棵树长出十八根枝：部派佛教分裂的四大核心争论