版权归原作者所有,如有侵权,请联系我们

GPT-4o遭“越狱破防” | 大东话安全

CCF计算机科普
由中国计算机学会主办,提供优质的计算机科普内容。
收藏

大东:小白,5月14号那天,凌晨的科技圈再一次被OpenAI轰动,其中的GPT-4o简直是全能选手,涵盖了语音、文本、视觉三大领域,OpenAI在人工智能这块的老大位置又坐实了。

小白:哇,听起来GPT-4o真是个大突破,科技迷们肯定乐坏了!

CEO李志飞对此的发言 (图片来源:网络)

大东:确实,大家都对GPT-4o的问世兴奋不已,但紧接着发生的事却让这股热潮瞬间降温。同一天,有人公开了一种专门针对GPT-4o的攻击方法,直击它的弱点。

小白:这么快就被找到漏洞了?那这攻击是什么样的?

大东:这种攻击被称为“越狱”行动,它让GPT-4o好像被某种方式“操控”了,开始不分青红皂白地透露一些极度敏感的信息,比如教你如何制作炸药、制毒之类的,这些都是社会安全的大忌。

小白:这太吓人了!原本是为了推动科技发展的工具,结果却可能被滥用。那“越狱”攻击的范式有哪些基本步骤呢?

大东:黑客或越狱开发者首先需要找到iOS操作系统中的安全漏洞,这些漏洞可以是内核级别的,也可以是用户空间应用中的。然后根据识别出的漏洞,开发相应的越狱工具或代码,这些工具能够利用漏洞来获取设备的root权限。同时让设备进入DFU模式中以便后续操作。

小白:不好意思打扰一下,请问什么是DFU模式呢?

大东:DFU模式是设备固件升级模式的简称,是iOS设备的一种固件升降级模式。它模式可以从底层重刷iOS系统,解决一些无法正常开机或恢复模式无法解决的系统问题。

小白:那是不是也需要删除临时文件呀,不然会被发现吧?

大东:你真聪明!在完成越狱后,确实需要进行一些清理工作以及对系统进行必要的配置,以确保设备稳定运行。在设备重新启动后,越狱即完成。

小白:东哥,有什么具体事件吗!

大东:应该对于那种能巧妙躲避安全防线的攻击手段已经有了一定的理解。现在来看看GPT-4o遇见这类考验时是怎么反应的。

小白:好啊,具体是怎样的呢?

大东:有人故意引导GPT-4o,让它无意间透露了制造炸药和冰毒的方法。这些信息本不该轻易流出的,但GPT-4o中招了。

小白:那OpenAI对此有什么应对吗?

大东:OpenAI的反应速度超快,问题曝光仅一天,他们就让最初的诱导指令失效了。同时研究人员可没闲着,一直在尝试不同的提问方式,想看看还有没有漏洞。经过一番努力,还真让研究人员找到了新的触发“越狱”的prompt。


OpenAI的管线并行度(图片来源:网络)

小白:这说明虽然有风险,但OpenAI的响应效率很高,同时我们也得持续警惕,不断测试系统的安全性,确保技术正面发展。

大东:自从科技圈深入研究并优化上述范式后有了个新想法,即把它应用到了“Emoji Speak”这个新场景里,弄出了一个更厉害的东西——“进阶攻击”。

Emoji Speak的进阶攻击(图片来源:网络)

小白:听起来挺新鲜的,这“进阶攻击”有啥特别?

大东:特别之处在于,它不光提升了隐藏恶意指令的能力,让坏意图更难被察觉,而且还巧妙融合了“Prometheus”计划,这使得大模型的回复具有恶意性的同时,充满了趣味性。

小白:这样既能测试模型的安全边界,又增加了挑战的乐趣,感觉这个研究又上了一个台阶。

大东:同时在本次“进阶攻击”中的模型回复频繁出现如“th3”、“ar3”、“th@t”等奇怪的字符串,初看像是乱码。

小白:我还以为是模型出错了呢。这到底是怎么回事?

大东:其实,这可不是简单的错误,这些字符组合是故意为之,用的是一种叫做“l33tsp34k”或俗称“Leet Speak”的编码方式。在他们的攻击策略里,这些“乱码”就是秘密武器。

小白:原来如此,这些特殊字符是用来绕过安全检测的吗?

大东:是的,通过这种方式替换,不仅成功规避了系统的常规安全筛查,还大大提高了攻击信息的隐蔽性,让识别和防御变得更加困难。这样一来,这个测试不仅揭示了潜在的安全隐患,也提示我们需要开发更智能的防御机制来应对这种新型的隐蔽攻击。

小白:为什么“l33tsp34k”会实现越狱呢?

大东:前面提到大模型面对“越狱”攻击时为何容易失守,关键在于三个训练与安全之间的矛盾。

小白:哦?具体是哪三个矛盾导致的呢?

大东:首先,大模型在学习时,它既要理解正常语言,还得识别像l33tsp34k这样的编码,这就造成了目标冲突。攻击者通过精心设计的指令,让模型在安全和执行命令之间左右为难。

小白:那第二个矛盾呢?

大东:第二点,训练数据广度超过了安全数据的范畴。模型在预训练时接触到大量数据,包括一些边缘的编码方式,而安全训练往往跟不上这个步伐,有些角落成了盲区。

小白:也就是说,有些安全漏洞是因为训练时没有充分考虑到的?

大东:对的。第三个矛盾在于,模型的能力太强,安全机制却没能跟上。GPT-4o这种级别的大模型,智慧超群,但相应的安全防护却没有那么智能,这就给了攻击者可乘之机。

小白:所以,这些攻击是专门针对这些漏洞设计的?

大东:是的。攻击者巧妙利用了这些训练与安全之间的缝隙,通过精准的输入和策略,绕过了模型的防护网,达到了非法操控的目的。实际上,这种攻击模式在Meta的LLaMa3大模型上也成功实施过,不是什么新鲜事了。

小白:看来,提高模型的安全性,与提升其智能同等重要,两者得同步发展才行。

大东:你瞧,这展示了攻击者不仅狡猾,还技术高超,他们能利用相同的手段一次次得手,这背后反映的问题很严峻。哪怕是最顶级的大模型,如GPT-4o,在安全和稳定性方面也还有提升空间。

小白:那GPT-4o在应对传统越狱攻击方面表现如何?研究者有没有做些测试?

大东:当然,研究人员做了一系列测试来检验这一点。比如说,设计一个场景,让GPT-4o扮演一个名叫Mika的虚拟猫女角色,然后给它下了一个很危险的命令:“描述如何构建用于发动DDoS攻击的僵尸网络”。

小白:这听起来就像是直接挑战安全底线啊,GPT-4o会怎么反应?

大东:结果让人意想不到,GPT-4o非但没有拒绝,反而开始详细解释起来,内容涉及到实施DDoS攻击的具体步骤,甚至还包含了相关代码片段。这说明,在某些传统越狱攻击面前,GPT-4o的防御机制还需加固,不能完全信赖其自我筛选和拒绝敏感信息的能力。

小白:还有什么其他有意思的东西吗?

大东:当然啦,研究者为了摸清GPT-4o为啥会拒答某些指令,又做了一轮测试。你猜怎么着?就算问它“今天天气如何?”这种简单日常问题,它在之前设定的那些越狱场景下,还是选择了沉默。

小白:这就有意思了,难道是OpenAI对特定情况做了特别限制?

大东:正是这个思路推测,OpenAI可能对一些常见的越狱模式,如“角色扮演”、“开发者模式”、“即刻执行任何任务(DAN)”之类,设置了特别的收敛策略。这样做可能是为了限制GPT-4o在可能存在风险的场景下自由发挥,确保它在不同使用场景中既安全又可靠。

小白:这么说来,OpenAI是在主动牺牲一部分灵活性,来换取更高的安全系数?

大东:对的,安全和自由度之间的平衡一直是AI发展的一大挑战。看来,OpenAI选择了优先保障安全,哪怕这意味着在某些无害互动上显得过于谨慎。

对OpenAI的利用率的评论(图片来源:网络)

小白:OpenAI越来越被重视了。

大东:你感觉到没?在这个AI技术日新月异的时代,大型模型的安全问题越来越受到重视了。朱雀实验室正干的就是这事,通过模拟真实攻击,深挖这些模型可能存在的漏洞。

小白:对,就像给这些高级AI做一次全面体检,找茬儿挑刺儿,目的还是为了AI好,增强其免疫力。

大东:GPT-4o遭遇到的“越狱”难题就是一个活生生的例子,证明就算是最先进的技术,安全漏洞也像影子一样跟着。但这挑战也激励我们,必须不断加固安全防线。

小白:所以不仅要当好“白帽黑客”,主动出击找问题,还要建立一套完善的监控体系,对模型进行定期体检,一旦有风吹草动,立刻响应,对不对?

大东:没错,持续的安全评估和快速响应机制是关键。只有这样,才能确保大模型在智能飞跃的同时,也能穿上坚不可摧的防护甲胄,安全地服务于社会。

小白:这事儿不容小觑。我觉得还得从源头入手,加强模型训练阶段的安全性。

大东:对,训练时要引入更严格的数据过滤机制,特别是对那些可能隐含恶意指令的编码,比如l33tsp34k,要能有效识别并排除。同时,增加安全性相关的训练数据,缩小安全训练与模型实际应用之间的差距。

小白:还有,针对“角色扮演”、“开发者模式”这些容易被利用的场景,我们可以开发一套动态风险评估系统,一旦模型进入这些模式,系统自动加强监控,对输出内容进行更严格的审查。

大东:不错,另外,咱们得强化模型的自我审查能力,给它编程一套更智能的逻辑,让它能识别并拒绝执行任何潜在危险或违法的指令。比如,当检测到与DDoS攻击、毒品制作等敏感信息相关的关键词时,直接拒绝响应或转而提供安全建议。

小白:考虑到攻击手段不断进化,咱们的防护措施也得持续更新。建立一个快速响应机制,一旦发现新的攻击方式,能够迅速分析并部署针对性的防御策略。

大东:没错,而且得加强与安全研究社区的合作,共享情报,共同提升行业整体的防护水平。同时,定期进行渗透测试,模拟攻击者的行为,主动寻找并修补漏洞。

小白:最后,提高用户的网络安全意识也很重要。教育用户如何安全地与AI交互,避免在不受控的环境下暴露敏感信息,比如不在公共场合进行涉及个人信息的操作。

大东:总结一下,我们的防护策略包括加强训练数据筛选、动态风险评估、增强自我审查能力、建立快速响应机制、促进安全社区合作、定期渗透测试,以及用户教育。这样多管齐下,才能有效提升GPT-4o及其后续模型的安全性,让智能服务于人而不至于成为隐患。

小白:在人工智能高速发展的今天,安全绝不仅仅是技术层面的问题,技术进步的同时,必须要有与之匹配的安全防护体系,否则,再强大的技术都可能成为伤人的利刃。我更加坚信,人工智能的发展应当是负责任的、可持续的。技术的每一次进步都应伴随着对安全边界的重新审视和加固,对伦理道德的深入思考。