极客前沿

极客资讯 正文

Anthropic道歉:偷偷给AI模型“上锁”被骂惨了

2026-06-12 00:30 | The Verge AI ...

Anthropic最近搞了个大新闻,不是发了新模型,而是为自家新模型Claude Fable 5偷偷上锁的行为公开道歉。这波操作堪称“科技版狼来了”——公司一边喊着AI太危险不能随便放,一边暗地里给模型加隐形护栏,结果被研究人员抓个正着。

News Image

隐形护栏:悄悄改答案,用户浑然不知

事情是这样的:Anthropic推出了号称“神话级”的Claude Fable 5,这是Mythos系列的首个公开模型。公司之前警告说这类模型太危险,但最终还是决定放出来,只是加了重重防护。其中一个关键防护就是针对“模型蒸馏”——也就是用大模型的输出去训练小模型的技术。Anthropic在系统卡里白纸黑字写着:对于疑似蒸馏的请求,模型会直接给出劣化答案,而且用户完全不知道答案被动了手脚。

News Image

这操作像极了老师偷偷改学生作业,还不告诉你哪里错了。研究人员和竞争对手自然炸了锅:你们这是防蒸馏还是防审查?连第三方想评估模型性能都被无差别打击。

News Image

道歉与转向:从隐形到显眼

面对舆论风暴,Anthropic火速道歉,承认“隐形护栏”是错误选择。公司表示,现在对于蒸馏请求,会直接回退到老款Claude Opus 4.8,并且每次都会弹出提示:“你触发了防护机制”。这招其实借鉴了其他高风险领域的处理方式——比如生物、化学、网络安全类问题,也是要么直接拒绝,要么转给Opus 4.8。不过讽刺的是,Anthropic自己承认,在生物领域防护调得太宽,连基础问题都答不了。

News Image

Anthropic在声明中解释:“可见的防护容易被试探,所以必须做得坚固,这需要时间。隐形的可以精准打击,快速上线且误报少。我们选错了平衡点,抱歉。” 这话翻译过来就是:我们图快,结果翻车了。

行业影响:透明与安全的永恒博弈

这次事件暴露了AI安全领域的一个核心矛盾:防护要有效,就得隐蔽;但隐蔽又容易引发不信任。Anthropic之前曾指责中国DeepSeek等公司“工业级”蒸馏,这次偷偷上锁多少有点草木皆兵。但更值得思考的是,当模型越来越强,防护措施本身会不会成为新的“黑箱”?

对于普通用户,这次道歉其实是个好消息:至少以后被限制时,你会收到明确提示,而不是被蒙在鼓里。而对于开发者,Anthropic的转向意味着蒸馏行为虽仍被限制,但至少规则透明了。不过,用Opus 4.8替代Fable 5的响应,这算不算另一种形式的“劣化”?只能说,AI安全的路上,没有完美的方案,只有不断试错。

最后,Anthropic的道歉信里那句“我们搞砸了平衡”倒是挺实在。在科技圈,承认错误有时比硬撑更能赢得尊重——前提是你真的改了。