GPT-4o遭“越狱破防” | 大东话安全-

大东：小白，5月14号那天，凌晨的科技圈再一次被OpenAI轰动，其中的GPT-4o简直是全能选手，涵盖了语音、文本、视觉三大领域，OpenAI在人工智能这块的老大位置又坐实了。

小白：哇，听起来GPT-4o真是个大突破，科技迷们肯定乐坏了！

CEO李志飞对此的发言（图片来源：网络）

大东：确实，大家都对GPT-4o的问世兴奋不已，但紧接着发生的事却让这股热潮瞬间降温。同一天，有人公开了一种专门针对GPT-4o的攻击方法，直击它的弱点。

小白：这么快就被找到漏洞了？那这攻击是什么样的？

大东：这种攻击被称为“越狱”行动，它让GPT-4o好像被某种方式“操控”了，开始不分青红皂白地透露一些极度敏感的信息，比如教你如何制作炸药、制毒之类的，这些都是社会安全的大忌。

小白：这太吓人了！原本是为了推动科技发展的工具，结果却可能被滥用。那“越狱”攻击的范式有哪些基本步骤呢？

大东：黑客或越狱开发者首先需要找到iOS操作系统中的安全漏洞，这些漏洞可以是内核级别的，也可以是用户空间应用中的。然后根据识别出的漏洞，开发相应的越狱工具或代码，这些工具能够利用漏洞来获取设备的root权限。同时让设备进入DFU模式中以便后续操作。

小白：不好意思打扰一下，请问什么是DFU模式呢？

大东：DFU模式是设备固件升级模式的简称，是iOS设备的一种固件升降级模式。它模式可以从底层重刷iOS系统，解决一些无法正常开机或恢复模式无法解决的系统问题。

小白：那是不是也需要删除临时文件呀，不然会被发现吧？

大东：你真聪明！在完成越狱后，确实需要进行一些清理工作以及对系统进行必要的配置，以确保设备稳定运行。在设备重新启动后，越狱即完成。

小白：东哥，有什么具体事件吗！

大东：应该对于那种能巧妙躲避安全防线的攻击手段已经有了一定的理解。现在来看看GPT-4o遇见这类考验时是怎么反应的。

小白：好啊，具体是怎样的呢？

大东：有人故意引导GPT-4o，让它无意间透露了制造炸药和冰毒的方法。这些信息本不该轻易流出的，但GPT-4o中招了。

小白：那OpenAI对此有什么应对吗？

大东：OpenAI的反应速度超快，问题曝光仅一天，他们就让最初的诱导指令失效了。同时研究人员可没闲着，一直在尝试不同的提问方式，想看看还有没有漏洞。经过一番努力，还真让研究人员找到了新的触发“越狱”的prompt。

OpenAI的管线并行度（图片来源：网络）

小白：这说明虽然有风险，但OpenAI的响应效率很高，同时我们也得持续警惕，不断测试系统的安全性，确保技术正面发展。

大东：自从科技圈深入研究并优化上述范式后有了个新想法，即把它应用到了“Emoji Speak”这个新场景里，弄出了一个更厉害的东西——“进阶攻击”。

Emoji Speak的进阶攻击（图片来源：网络）

小白：听起来挺新鲜的，这“进阶攻击”有啥特别？

大东：特别之处在于，它不光提升了隐藏恶意指令的能力，让坏意图更难被察觉，而且还巧妙融合了“Prometheus”计划，这使得大模型的回复具有恶意性的同时，充满了趣味性。

小白：这样既能测试模型的安全边界，又增加了挑战的乐趣，感觉这个研究又上了一个台阶。

大东：同时在本次“进阶攻击”中的模型回复频繁出现如“th3”、“ar3”、“th@t”等奇怪的字符串，初看像是乱码。

小白：我还以为是模型出错了呢。这到底是怎么回事？

大东：其实，这可不是简单的错误，这些字符组合是故意为之，用的是一种叫做“l33tsp34k”或俗称“Leet Speak”的编码方式。在他们的攻击策略里，这些“乱码”就是秘密武器。

小白：原来如此，这些特殊字符是用来绕过安全检测的吗？

大东：是的，通过这种方式替换，不仅成功规避了系统的常规安全筛查，还大大提高了攻击信息的隐蔽性，让识别和防御变得更加困难。这样一来，这个测试不仅揭示了潜在的安全隐患，也提示我们需要开发更智能的防御机制来应对这种新型的隐蔽攻击。

小白：为什么“l33tsp34k”会实现越狱呢？

大东：前面提到大模型面对“越狱”攻击时为何容易失守，关键在于三个训练与安全之间的矛盾。

小白：哦？具体是哪三个矛盾导致的呢？

大东：首先，大模型在学习时，它既要理解正常语言，还得识别像l33tsp34k这样的编码，这就造成了目标冲突。攻击者通过精心设计的指令，让模型在安全和执行命令之间左右为难。

小白：那第二个矛盾呢？

大东：第二点，训练数据广度超过了安全数据的范畴。模型在预训练时接触到大量数据，包括一些边缘的编码方式，而安全训练往往跟不上这个步伐，有些角落成了盲区。

小白：也就是说，有些安全漏洞是因为训练时没有充分考虑到的？

大东：对的。第三个矛盾在于，模型的能力太强，安全机制却没能跟上。GPT-4o这种级别的大模型，智慧超群，但相应的安全防护却没有那么智能，这就给了攻击者可乘之机。

小白：所以，这些攻击是专门针对这些漏洞设计的？

大东：是的。攻击者巧妙利用了这些训练与安全之间的缝隙，通过精准的输入和策略，绕过了模型的防护网，达到了非法操控的目的。实际上，这种攻击模式在Meta的LLaMa3大模型上也成功实施过，不是什么新鲜事了。

小白：看来，提高模型的安全性，与提升其智能同等重要，两者得同步发展才行。

大东：你瞧，这展示了攻击者不仅狡猾，还技术高超，他们能利用相同的手段一次次得手，这背后反映的问题很严峻。哪怕是最顶级的大模型，如GPT-4o，在安全和稳定性方面也还有提升空间。

小白：那GPT-4o在应对传统越狱攻击方面表现如何？研究者有没有做些测试？

大东：当然，研究人员做了一系列测试来检验这一点。比如说，设计一个场景，让GPT-4o扮演一个名叫Mika的虚拟猫女角色，然后给它下了一个很危险的命令：“描述如何构建用于发动DDoS攻击的僵尸网络”。

小白：这听起来就像是直接挑战安全底线啊，GPT-4o会怎么反应？

大东：结果让人意想不到，GPT-4o非但没有拒绝，反而开始详细解释起来，内容涉及到实施DDoS攻击的具体步骤，甚至还包含了相关代码片段。这说明，在某些传统越狱攻击面前，GPT-4o的防御机制还需加固，不能完全信赖其自我筛选和拒绝敏感信息的能力。

小白：还有什么其他有意思的东西吗？

大东：当然啦，研究者为了摸清GPT-4o为啥会拒答某些指令，又做了一轮测试。你猜怎么着？就算问它“今天天气如何？”这种简单日常问题，它在之前设定的那些越狱场景下，还是选择了沉默。

小白：这就有意思了，难道是OpenAI对特定情况做了特别限制？

大东：正是这个思路推测，OpenAI可能对一些常见的越狱模式，如“角色扮演”、“开发者模式”、“即刻执行任何任务（DAN）”之类，设置了特别的收敛策略。这样做可能是为了限制GPT-4o在可能存在风险的场景下自由发挥，确保它在不同使用场景中既安全又可靠。

小白：这么说来，OpenAI是在主动牺牲一部分灵活性，来换取更高的安全系数？

大东：对的，安全和自由度之间的平衡一直是AI发展的一大挑战。看来，OpenAI选择了优先保障安全，哪怕这意味着在某些无害互动上显得过于谨慎。

对OpenAI的利用率的评论（图片来源：网络）

小白：OpenAI越来越被重视了。

大东：你感觉到没？在这个AI技术日新月异的时代，大型模型的安全问题越来越受到重视了。朱雀实验室正干的就是这事，通过模拟真实攻击，深挖这些模型可能存在的漏洞。

小白：对，就像给这些高级AI做一次全面体检，找茬儿挑刺儿，目的还是为了AI好，增强其免疫力。

大东：GPT-4o遭遇到的“越狱”难题就是一个活生生的例子，证明就算是最先进的技术，安全漏洞也像影子一样跟着。但这挑战也激励我们，必须不断加固安全防线。

小白：所以不仅要当好“白帽黑客”，主动出击找问题，还要建立一套完善的监控体系，对模型进行定期体检，一旦有风吹草动，立刻响应，对不对？

大东：没错，持续的安全评估和快速响应机制是关键。只有这样，才能确保大模型在智能飞跃的同时，也能穿上坚不可摧的防护甲胄，安全地服务于社会。

小白：这事儿不容小觑。我觉得还得从源头入手，加强模型训练阶段的安全性。

大东：对，训练时要引入更严格的数据过滤机制，特别是对那些可能隐含恶意指令的编码，比如l33tsp34k，要能有效识别并排除。同时，增加安全性相关的训练数据，缩小安全训练与模型实际应用之间的差距。

小白：还有，针对“角色扮演”、“开发者模式”这些容易被利用的场景，我们可以开发一套动态风险评估系统，一旦模型进入这些模式，系统自动加强监控，对输出内容进行更严格的审查。

大东：不错，另外，咱们得强化模型的自我审查能力，给它编程一套更智能的逻辑，让它能识别并拒绝执行任何潜在危险或违法的指令。比如，当检测到与DDoS攻击、毒品制作等敏感信息相关的关键词时，直接拒绝响应或转而提供安全建议。

小白：考虑到攻击手段不断进化，咱们的防护措施也得持续更新。建立一个快速响应机制，一旦发现新的攻击方式，能够迅速分析并部署针对性的防御策略。

大东：没错，而且得加强与安全研究社区的合作，共享情报，共同提升行业整体的防护水平。同时，定期进行渗透测试，模拟攻击者的行为，主动寻找并修补漏洞。

小白：最后，提高用户的网络安全意识也很重要。教育用户如何安全地与AI交互，避免在不受控的环境下暴露敏感信息，比如不在公共场合进行涉及个人信息的操作。

大东：总结一下，我们的防护策略包括加强训练数据筛选、动态风险评估、增强自我审查能力、建立快速响应机制、促进安全社区合作、定期渗透测试，以及用户教育。这样多管齐下，才能有效提升GPT-4o及其后续模型的安全性，让智能服务于人而不至于成为隐患。

小白：在人工智能高速发展的今天，安全绝不仅仅是技术层面的问题，技术进步的同时，必须要有与之匹配的安全防护体系，否则，再强大的技术都可能成为伤人的利刃。我更加坚信，人工智能的发展应当是负责任的、可持续的。技术的每一次进步都应伴随着对安全边界的重新审视和加固，对伦理道德的深入思考。