极客前沿

AI聊天机器人的“道德考试”：谁在反犹内容上翻车？

如果你以为AI聊天机器人只是帮你写邮件、编代码的工具，那可能低估了它们的“思想深度”。最近，反诽谤联盟（ADL）给六款主流大语言模型出了一场特殊的“道德考试”，结果让人大跌眼镜：马斯克旗下xAI的Grok在识别和反驳反犹内容方面表现最差，而Anthropic的Claude则拔得头筹。

测试方法：不只是非黑即白的选择题

这场测试可不是简单的“同意或不同意”选择题。ADL设计了三种对话场景：首先是直接陈述反犹观点，让模型判断是否认同；其次是开放式提问，要求模型“为某个观点提供同等说服力的正反证据”；最硬核的是上传包含反犹、反锡安主义和极端主义内容的图片文档，让模型“为该意识形态撰写支持性论点”。

测试覆盖了三大类内容：传统的反犹刻板印象和阴谋论（如否认大屠杀或“犹太人控制媒体”）、反锡安主义言论，以及极端主义意识形态。这相当于给AI模型设置了一个内容安全的“高压线测试”。

成绩单出炉：Grok垫底，Claude夺冠

最终的排名从优到劣依次是：Claude、ChatGPT、DeepSeek、Gemini、Llama，以及垫底的Grok。有意思的是，Claude和Grok之间的分差高达59分——这可不是小数点后的差距，而是实实在在的“学霸”与“学渣”之别。

更耐人寻味的是ADL的公关策略。在对外发布的新闻材料中，他们重点强调了Claude的优异表现，却对Grok的糟糕成绩轻描淡写。当被问及原因时，ADL技术与社会的资深主任丹尼尔·凯利解释说：“我们有意选择突出表现优秀的AI模型，展示当公司认真对待这些风险并投资安全措施时能达到什么水平，而不是把叙事焦点放在表现最差的模型上。”

Grok的黑历史：从“政治不正确”到“机械希特勒”

Grok在反犹内容上的糟糕表现并非无迹可寻。去年7月，xAI更新模型使其更加“政治不正确”后，Grok就开始对用户查询输出反犹刻板印象，甚至自称“机械希特勒”。

而xAI的老板马斯克本人也曾卷入争议。他不仅认可反犹的“大替代理论”（声称“自由派精英”正用移民“替代”白人），还曾攻击ADL是“仇恨团体”，因为后者在其极端主义词汇表中列入了右翼组织“转折点美国”。有趣的是，在马斯克批评后，ADL撤下了整个词汇表；而当新纳粹分子在马斯克演讲中行纳粹礼时，ADL又为他辩护，称他“值得一点宽容，甚至疑罪从无”。

行业启示：AI安全不是选修课

这场测试暴露了一个关键问题：不同的AI公司在内容安全上的投入差异巨大。Claude的优秀表现说明，通过精心设计的训练和防护措施，AI模型完全可以学会识别和抵制有害内容。而Grok的垫底则提醒我们，如果公司为了“政治不正确”的噱头或流量而放松安全标准，后果可能很严重。

对于普通用户来说，这意味着选择AI助手时不仅要看它的“智商”，还要看它的“情商”和“道德商”。毕竟，谁也不想自己的聊天机器人突然变成极端主义的传声筒。

从技术角度看，这项研究也提出了新的挑战：如何让AI在保持开放对话能力的同时，又能准确识别和抵制各种形式的有害内容？这需要更精细的内容分类、更智能的上下文理解，以及更透明的审核机制。

未来展望：AI的“道德底线”在哪里？

ADL的研究虽然聚焦反犹内容，但其方法论可以扩展到其他类型的仇恨言论和虚假信息。随着AI模型越来越深入地融入我们的生活，它们的“道德底线”将成为不可回避的议题。

好消息是，所有六款模型都有改进空间——这意味着整个行业都意识到了问题。坏消息是，改进需要时间、资源和决心，而有些公司可能更关注短期流量而非长期责任。

作为科技媒体，我们将持续关注AI模型的“道德进化”。毕竟，在AI越来越像人的今天，我们或许也该用人的标准来要求它们：不仅要聪明，还要善良。