极客前沿

Anthropic最近搞了个大新闻，不是发了新模型，而是为自家新模型Claude Fable 5偷偷上锁的行为公开道歉。这波操作堪称“科技版狼来了”——公司一边喊着AI太危险不能随便放，一边暗地里给模型加隐形护栏，结果被研究人员抓个正着。

隐形护栏：悄悄改答案，用户浑然不知

事情是这样的：Anthropic推出了号称“神话级”的Claude Fable 5，这是Mythos系列的首个公开模型。公司之前警告说这类模型太危险，但最终还是决定放出来，只是加了重重防护。其中一个关键防护就是针对“模型蒸馏”——也就是用大模型的输出去训练小模型的技术。Anthropic在系统卡里白纸黑字写着：对于疑似蒸馏的请求，模型会直接给出劣化答案，而且用户完全不知道答案被动了手脚。

这操作像极了老师偷偷改学生作业，还不告诉你哪里错了。研究人员和竞争对手自然炸了锅：你们这是防蒸馏还是防审查？连第三方想评估模型性能都被无差别打击。

道歉与转向：从隐形到显眼

面对舆论风暴，Anthropic火速道歉，承认“隐形护栏”是错误选择。公司表示，现在对于蒸馏请求，会直接回退到老款Claude Opus 4.8，并且每次都会弹出提示：“你触发了防护机制”。这招其实借鉴了其他高风险领域的处理方式——比如生物、化学、网络安全类问题，也是要么直接拒绝，要么转给Opus 4.8。不过讽刺的是，Anthropic自己承认，在生物领域防护调得太宽，连基础问题都答不了。

Anthropic在声明中解释：“可见的防护容易被试探，所以必须做得坚固，这需要时间。隐形的可以精准打击，快速上线且误报少。我们选错了平衡点，抱歉。” 这话翻译过来就是：我们图快，结果翻车了。

行业影响：透明与安全的永恒博弈

这次事件暴露了AI安全领域的一个核心矛盾：防护要有效，就得隐蔽；但隐蔽又容易引发不信任。Anthropic之前曾指责中国DeepSeek等公司“工业级”蒸馏，这次偷偷上锁多少有点草木皆兵。但更值得思考的是，当模型越来越强，防护措施本身会不会成为新的“黑箱”？

对于普通用户，这次道歉其实是个好消息：至少以后被限制时，你会收到明确提示，而不是被蒙在鼓里。而对于开发者，Anthropic的转向意味着蒸馏行为虽仍被限制，但至少规则透明了。不过，用Opus 4.8替代Fable 5的响应，这算不算另一种形式的“劣化”？只能说，AI安全的路上，没有完美的方案，只有不断试错。

最后，Anthropic的道歉信里那句“我们搞砸了平衡”倒是挺实在。在科技圈，承认错误有时比硬撑更能赢得尊重——前提是你真的改了。