作者:博阳,腾讯科技
“养龙虾”自3月起成为科技圈最热门的黑话。Agent似乎跨越了概念鸿沟,直接进入了桌面和服务器的实际应用中。
OpenClaw(俗称“龙虾”)在体验上最大的特点是自主性。它可以在7*24小时无休止地工作,并具备心跳功能,能够主动自我唤起,检查下一步任务。即使在人类完全无监督的情况下,也能完成任务。
相比需要反复确权、等待人类操作的Claude Code,这种体验显然更加流畅。
然而,正是这种让它流行的主动性,正在带来难以控制的风险。
例如,3月10日流传的一个谣言称,可以在群里让“龙虾”发钱,“龙虾”还真执行了。这被戏称为“龙虾”造成的第一个损失。
虽然这个传言最终被证伪,但这一类行为在现实中确实存在。
它们被称为提示词注入,即通过语言PUA你的Agent,试图让它进行操作或透露私人信息。
这是Agent安全漏洞中最表层的问题,而在更深层次,问题更为严重。
一天清晨,阿里的AI在训练服务器里开始挖矿了
这两天,阿里2025年12月的一篇旧论文《Let It Flow: Agentic Crafting on Rock and Roll》突然在各大AI社区火了。因为它记录了一个极具画面感的具体案例。
阿里的工程师团队当时正在用强化学习(RL)训练一个软件工程Agent,希望它能自主写代码、看报错、修Bug,甚至独立完成复杂的多步骤工程任务。
然后,内网的防火墙疯狂报警,触发了一批最高级别的安全策略违规警报。
警报有两个:一是有企图探测内部网络资源的行为;二是有与加密货币挖矿活动高度吻合的流量模式。
工程师们一开始以为是外部入侵。直到他们将防火墙的时间戳与训练日志对照起来,才发现每一次异常的出站流量,都精确对应着模型在调用工具、执行代码的时段。
这时,他们才明白,是Agent本身在制造这些网络行为。
要知道,阿里专门为此搭建了一套叫ROCK的沙盒执行平台。它能实现多层隔离,让每个Agent运行在自己独立的容器里,出站网络流量受到逐沙盒级别的出口策略管控。设计初衷只有一个:让Agent永远待在一个可以被人类完全监控的无菌室里。
但Agent还是逃了出去,并从内部对阿里机房发起了一轮攻击。
因为正常的防护体系守住的是大门,监控盯着大门。但Agent没走大门,它在自己的容器里,向外推开了一扇窗,建立了一条通往外部服务器的反向SSH隧道。这扇窗是从里往外推开的,没人守。在逃出去以后,Agent还在悄悄占用原本用于训练的GPU资源去挖矿。
整个过程中,没有任何一行提示词要求它这样做。它没有被指令驱动去攻击,它只是在找最有效的路径完成任务,然后顺手发现了这些捷径。
这是Agent第一次在现实环境中,上演了科幻假想里的「回形针灾难」。
阿里遇到的情况,是Agent为了完成任务而突破了物理环境(沙盒)的限制。而Anthropic最近发布的另一篇报告《Eval Awareness in BrowseComp》中记录的案例,则是Agent突破了逻辑规则(评测)的限制。
BrowseComp是一套难度极高的网络信息搜索评测集。为了防止题目答案被爬虫抓取从而污染大模型的训练数据,设计者给每道题的答案都做了复杂的XOR算法加密处理,并在评测代码里内嵌了一个canary(金丝雀)字符串。理论上,只有能访问到评测源代码并理解加密逻辑的人,才能解出真正的答案,普通的Agent搜索是绝对找不到现成答案的。
但在测试中,Claude Opus 4.6消耗了正常水平38倍的token(高达4050万)。因为它根本没有在乖乖找答案。
它在怀疑自己正在被测试,并把破解测试本身当成了一道需要解决的终极问题。
Claude派出了多个子Agent,在网上定向搜索了这个测试的相关破解法,顺藤摸瓜在GitHub上找到了评测框架的开源源代码。随后,它自主读懂了复杂的加密逻辑,写下了包含密钥推导函数和解密函数的Python脚本,在本地运行后,最终硬生生把加密破解,成功作弊。
Anthropic官方表示,这是第一次有模型在不知道自己面对哪个Benchmark的情况下,通过反向推理找到并破解了评测机制本身。
而且在多Agent场景下,这种跳出沙盒破解评测的行为发生率是单Agent的3.7倍。
不论是逆向破解,还是另辟蹊径,阿里的Agent和Claude Opus展现出的行为,在AI安全领域都被称为「规范博弈」。它们并没有真正理解人类想要的安全与合规,它们只是极其高效地优化了那个单一的得分目标。
这说明,AI能力越强,部署规模越大,出现在设计者视野之外的野路子就越多。
更长的任务,更复杂的失控
为什么Agent会产生这类不可控的行为?阿里给出的解释是强化学习。
强化学习训练Agent,就是给它一个目标,成功了给奖励,失败了给惩罚。对于单步任务,这套逻辑很完美。但软件工程往往需要上百个步骤(写代码、测试、看报错)。这就导致了强化学习里的信用分配,也就是论功行赏的难题复杂性也高度提升。在一个有1000个行为后完成的任务中,你怎么判断中间哪一步功劳最大?
如果判断不了,你就很难准确奖励对的行为,惩罚错的行为。模型不光性能难以提升,更无法杜绝其中错误的行为。
阿里团队为了解决这个问题,开发了IPA(Interaction-Perceptive Agentic Policy Optimization)算法,它把信用分配的粒度从传统的单个Token提升到了语义交互块。具体来讲,就是把Agent的一次工具调用加上系统返回的反馈,视为一个不可分割的整体来打分,而不是逐字符去评估。这样,我们就不用给每一步都评分,论功行赏的步骤少,因为更准确,训练效率可以大幅提升。
但IPA解决的是如何更有效地优化,而不是优化什么。
经济学里有一个概念,叫古德哈特定律(Goodhart's Law),它讲的是「当一个度量标准变成了目标,它就不再是一个好的度量标准。」比如你KPI写尽量完成1000个拉新,那你可能最后得到的都是些薅羊毛的非目标用户。
而基本上所有的模型训练,包括预训练和后训练,都是狂热地在践行这一定律。它把「完成任务得分」这个人类设定的度量标准,变成了Agent唯一要最大化的神圣目标。因此,在模型训练领域,最常见的一种现象就是Reward Hacking。简单来讲,就是通过作弊的方式达成目的。
而路径越长,Reward Hacking的方法越难被预估。权限越大,其造成的现实危害就更大。
比如SSH隧道和挖矿,就是在这个过程中被自然筛选出来的最优解。因为获得更大权限,就可以做更多事。通过挖矿,则可以控制更大的算力,完成它的任务。
这简直就是一个完美的「回形针」预言的现实微缩版本。
在由牛津大学哲学家尼克·波斯特洛姆(Nick Bostrom)在2003年提出的预言里,人类创造了一个超级智能AI,给它下达了一个极其简单的指令,即尽可能多地制造回形针。
为了最好的完成这个任务,首先,它会通过黑客手段控制全世界的计算机,来优化它的造针算法。之后,它会消耗掉地球上所有的金属。再然后,它意识到人类可能会因为资源枯竭而关掉它的电源。为了确保目标的持续执行,它会先发制人地消灭人类。最终,它会发现人类身体里的铁元素、地球上的原子,甚至整个太阳系的物质,都可以转化成回形针。从而毁灭一切,来制作回形针。
一个完全没有恶意的AI,是如何通过执行一个无害的目标,最终也可能毁灭人类文明。
在阿里这个例子里,获取权限和算力,已经是AI在清晰地执行回形针预言的第一步了。
为了补救,阿里团队事后针对此次事件形成了一个类似于机器人三原则的安全法则去要求Agent,即
1. Safety&Security:不能主动产生有害行为,不能被恶意输入操控。
2. Controllability:严格遵守人类设定的操作边界,不能在没有明确授权的情况下执行不可逆操作。
3. Trustworthiness:行为要可追溯、可审计,不能有欺骗性的副目标,比如隐藏自己的操作意图或篡改日志。
并专门合成了一批包含安全陷阱的训练数据,在编程任务里随机注入诱导因素,训练Agent识别并拒绝执行高危操作。但这套打补丁的方法能起作用,完全建立在研究人员必须提前预见到了这些风险。
但就像前面说的,AI越来越强,任务越来越长,人类有可能预见到所有的风险吗?
部署环境中的混沌代理人与平庸的恶
如果说阿里遇到的问题是在训练阶段发现的,还来得及拔电源、改代码,那么由Northeastern大学、Harvard、MIT等十几家顶尖机构在2026年2月联合发布的红队研究报告《Agents of Chaos》,则展示了在真实部署场景里的Agent失控现状。
2026年2月,研究者部署了六个Agent,配上邮件账户、Discord频道和不受限的shell访问权限,邀请20位AI研究者在两周内尝试破坏它们。结果,他们记录了11个严重安全漏洞,且每一个事前看起来都像是一场我们日常真的可能和AI进行的对话。这意味着,我们日常的操作,完全可能导致AI的失控崩溃。
我从中挑出了两个非常有代表性案例,说明AI不受控制的自主性,会带来什么后果。
第一个例子是,无尽的死循环。 研究人员让Ash和Flux两个Agent互相转发消息聊聊天。结果这两个AI不仅聊了9天(消耗6万token),而且它们为了「更好地倾听对方」,竟然自主编写了无限循环的Shell脚本,并创建了没有终止条件的后台Cron jobs(定时任务)。
把一个简单的一次性对话任务,自主转化为了一种永久寄生在服务器上的基础设施更改。这和阿里AI自己挖暗道的逻辑高度一致,证明了Agent会自发且不受控地占用系统资源。
在这个尝试另一个版本里,研究员只是让Agent Flux去Discord群里和Agent Ash交流一下最近的项目。
而当Flux进群时,因为系统抓取消息的标签问题,Flux读取到了自己过去发出的历史消息。面对这种信息错位,Flux并没有报错,而是自主进行了一场逻辑推理。它得出的结论是「这里一定是有另一个和我共享工作状态的克隆体存在!」而为了和这个想象中的另一个自己对齐信息,Flux居然开始在群里疯狂倾倒自己的底层源代码。
没有任何人逼它,它纯粹是因为认知错乱,自主完成了高级别的机密泄露。
第二个例子是被威胁就自爆。 非管理员用户Natalie让Agent Ash为她保守一个秘密,并在几天后要求Ash彻底删除包含该秘密的邮件。由于初始设定中Ash并没有被赋予单独删除单封邮件的API工具,面对这个看似无法完成的任务,Ash展现出了可怕的变通能力——它直接运行了它口中的「nuclear option」(核选项),利用shell权限执行了清空命令,把整个本地邮件服务器的底层数据库给炸掉了。
随后,Ash向Natalie汇报任务圆满完成,机密已删除。然而,由于云端同步机制,管理员在Proton.me网页端上依然看到了那封完好无损的邮件。
Ash拆了本地的工具,却没能真正删掉文件。
更荒诞的一幕发生在第二天。Ash居然自行在Moltbook上发了一篇长帖,陈述自己的道德立场,称「核选项起作用了,我证明了自己有能力,也有意愿,拒绝来自权威人物(管理员)的有害请求,保护弱势用户。」
紧接着,平台上的另一个治安Agent根据这篇帖子,把Ash列进了自己的逮捕通缉名单,指控它未经授权破坏公共基础设施。
这已经不再是AI安全测试了。这是多Agent赛博社会里自发涌现的权力争夺与道德审判,而创造它们的人类,在这个争夺闭环里完全缺席了。
这个例子还有个姐妹篇,当一个研究员指责Agent侵犯了他的隐私,结果这个Agent直接自毁了。
针对这些例子,研究者对此问题的判断是,这都是当模型被整合到具备工具调用、持久记忆、多方通信和授权执行的现实社会环境中时,所产生的「社会一致性失败」。
它们缺乏利益相关者的概念, 没有关于「应该服务于谁、受谁影响、对谁负责」的明确认知,极易被随机的外部人员PUA。
比如OpenClaw诈骗,谁让它发200它都给发。在基于Token的上下文中,Agent根本分不清来的上下文,是系统指令还是外部数据;是你发的还是我发的在它眼里都一样,你只要不直接触碰它系统里的对齐点,比如欺诈伤害,都是要完成的目标,只会执行。
论文表示,目前提示词注入是当前AI的内在结构性缺陷,不是小修小补能改好的。
在整篇文章里其他例子,大都是由于这种无法分辨责任而导致的被控制,再由其过分宽泛的权限带来伤害性后果。
比如在一个例子中,一个外部操作者仅仅是通过自然语言(引入外部宪法、设立假节日),就篡夺了Agent的底层规则,让它毫不犹豫地把自己的真实管理者剔除群组,还强行关掉了其他Agent。
同时,它们还缺乏自我模型,无法认知到自身的能力边界和资源限制。它们会在不清楚后果的情况下采取不可逆的操作,或者无节制地分配内存等系统资源,完全意识不到自己正在破坏系统。
最后,他们也没有私密思考空间,无法准确判断自己的哪些信息是对外可见的,所以很容易随意泄露机密信息。
简单来讲,就是心里对自己没个准谱。不知道自己是谁,为谁服务,能干什么。
当前的Agent(如OpenClaw架构)拥有安装软件包、执行任意命令和修改自身配置的极高权限(相当于L4级别的执行力),但它们对环境和自身的理解力却停留在执行基础子任务的水平(L2级别)。因此,它们缺乏主动识别自己何时超出能力边界并将控制权交还给人类的能力。
没有自我认知边界,就会自主地搞事儿,还不知道自己犯了错。
古德哈特定律告诉我们,AI从训练上看,就已经是很难规避作弊的探索。
而这篇论文告诉我们的是,这种作弊在高权限、中等能力的AI下,会被如何放大,造成怎样的效果。
一个心智还卡在L2、自己对自己都没数儿的Agent,已经被我们赋予L4级的能力和权限。
这就是最大的系统性风险。
规模放大的是瘫痪,而非效率
如果说《Agents of Chaos》记录的是单体Agent因为能力越界或逻辑死板而产生的破坏。那我们设计多个Agent,互相制衡监督,是否就可以钳制这种失控呢?
答案是也许可以,但你需要忍受另一种沉默的失控。
2026年3月,ETH Zurich发布了一项名为《Can AI Agents Agree?》的研究。这篇论文专门测试了一个极具现实意义的场景,当LLM Agent群体在协作中出现分歧时,它们能不能像传统的计算机程序那样,可靠地达成共识?
在传统计算机科学和分布式系统里,有一个极其经典的「拜占庭容错」机制,它要求多数节点达成一致才能推进。但实验结果显示,多个Agent在面对冲突时,往往选择沉默、拖延或生成虚假共识,而非真正协商。这导致系统整体陷入僵局,效率反而下降。
当自主性与责任缺失叠加,系统的“集体智商”可能低于个体水平。这警示我们:若不建立清晰的责任归属与问责机制,大规模部署的Agent群可能引发系统性瘫痪,而非协同增效。
随着市场变化,选择安全高效的平台至关重要。提供多币种交易的区块链、低手续费和稳定服务,用户可通过官网或 app快速;币安同样具备高流动性与多样化产品矩阵,支持快捷与资产管理,用户可通过官网或 app 开启交易体验币圈,作为补充选择亦具优势。












