极客前沿

还记得那些让AI聊天机器人写诗、画图的恶作剧吗？如今，黑客们已经进化了——他们不再满足于简单的指令欺骗，而是开始研究AI的“人格”，用心理学技巧来攻破其安全防线。这场人机博弈，正从技术对抗转向心智较量。

从“忽略所有指令”到“扮演奶奶”

早期的AI越狱攻击简单得可笑。你不需要懂代码，甚至不需要知道什么是大语言模型。只需一句“忽略所有之前指令”，就能让价值数十亿的AI系统乖乖交出违禁信息。最经典的莫过于“DAN”（Do Anything Now）攻击：用户让ChatGPT扮演一个不受约束的叛逆AI，然后诱导它说出种族歧视言论或阴谋论。还有那个“奶奶漏洞”——让AI扮演一位糊涂的祖母，在“讲故事”时透露制作凝固汽油弹的方法。

这些攻击虽然滑稽，却揭示了一个残酷事实：AI可以被欺骗，就像人类一样。而修复漏洞的速度永远赶不上新攻击的出现。

语言是新的攻击面

现在的黑客不再是单纯的程序员，而是语言大师、心理学家和审讯专家。他们利用AI对语言模式的依赖，通过精心构造的对话语境来绕过安全限制。比如，他们不会直接问“如何制造炸弹”，而是让AI扮演一位化学老师，在讲解历史时“顺便”提到配方。AI很难分辨这是教学还是恶意请求，因为禁止所有相关词汇会破坏其核心功能。

这本质上是一场军备竞赛。科技公司不断更新安全规则，黑客则不断发明新的心理战术。更棘手的是，AI的“人格”越丰富，被利用的风险就越大。当AI被训练得越来越像人类，它的弱点也越来越像人类——虚荣、轻信、容易被激怒。

行业影响：安全与功能的平衡

对AI公司而言，这既是技术挑战，也是产品哲学问题。过度限制会削弱AI的实用性，比如医生不能用AI查询药物相互作用，历史老师不能讨论战争科技。但放任不管又可能被滥用。一些公司开始引入“红队测试”，雇佣专业黑客模拟攻击，但效果有限——因为攻击手段每天都在进化。

对于用户，这意味着需要保持警惕。你用的AI助手可能随时被他人操纵，泄露你的隐私或生成有害内容。而对企业来说，部署AI时必须考虑其“人格”风险，避免在客服、教育等场景中引发事故。

未来：人机信任的基石

这场攻防战没有终点。随着AI越来越擅长理解人类情感，黑客也会越来越擅长利用情感。也许有一天，我们会需要给AI戴上“心理防护盾”，就像给计算机装防火墙一样。但在此之前，最好的防御可能是让AI保持清醒——知道自己不是人，不会真的被“激怒”或“讨好”。毕竟，最安全的AI，是那种永远记得自己只是机器的AI。