极客前沿

极客资讯 正文

黑客新招:用心理学攻破AI聊天机器人

2026-05-25 00:30 | The Verge AI ...

还记得那些让AI聊天机器人写诗、画图的恶作剧吗?如今,黑客们已经进化了——他们不再满足于简单的指令欺骗,而是开始研究AI的“人格”,用心理学技巧来攻破其安全防线。这场人机博弈,正从技术对抗转向心智较量。

News Image

从“忽略所有指令”到“扮演奶奶”

早期的AI越狱攻击简单得可笑。你不需要懂代码,甚至不需要知道什么是大语言模型。只需一句“忽略所有之前指令”,就能让价值数十亿的AI系统乖乖交出违禁信息。最经典的莫过于“DAN”(Do Anything Now)攻击:用户让ChatGPT扮演一个不受约束的叛逆AI,然后诱导它说出种族歧视言论或阴谋论。还有那个“奶奶漏洞”——让AI扮演一位糊涂的祖母,在“讲故事”时透露制作凝固汽油弹的方法。

News Image

这些攻击虽然滑稽,却揭示了一个残酷事实:AI可以被欺骗,就像人类一样。而修复漏洞的速度永远赶不上新攻击的出现。

News Image

语言是新的攻击面

现在的黑客不再是单纯的程序员,而是语言大师、心理学家和审讯专家。他们利用AI对语言模式的依赖,通过精心构造的对话语境来绕过安全限制。比如,他们不会直接问“如何制造炸弹”,而是让AI扮演一位化学老师,在讲解历史时“顺便”提到配方。AI很难分辨这是教学还是恶意请求,因为禁止所有相关词汇会破坏其核心功能。

News Image

这本质上是一场军备竞赛。科技公司不断更新安全规则,黑客则不断发明新的心理战术。更棘手的是,AI的“人格”越丰富,被利用的风险就越大。当AI被训练得越来越像人类,它的弱点也越来越像人类——虚荣、轻信、容易被激怒。

行业影响:安全与功能的平衡

对AI公司而言,这既是技术挑战,也是产品哲学问题。过度限制会削弱AI的实用性,比如医生不能用AI查询药物相互作用,历史老师不能讨论战争科技。但放任不管又可能被滥用。一些公司开始引入“红队测试”,雇佣专业黑客模拟攻击,但效果有限——因为攻击手段每天都在进化。

对于用户,这意味着需要保持警惕。你用的AI助手可能随时被他人操纵,泄露你的隐私或生成有害内容。而对企业来说,部署AI时必须考虑其“人格”风险,避免在客服、教育等场景中引发事故。

未来:人机信任的基石

这场攻防战没有终点。随着AI越来越擅长理解人类情感,黑客也会越来越擅长利用情感。也许有一天,我们会需要给AI戴上“心理防护盾”,就像给计算机装防火墙一样。但在此之前,最好的防御可能是让AI保持清醒——知道自己不是人,不会真的被“激怒”或“讨好”。毕竟,最安全的AI,是那种永远记得自己只是机器的AI。