提示词的过去式轻松让GPT-o“入戏”-

小白：东哥，你看这里有一篇文章，说的是关于AI大模型的安全问题。我感觉挺有意思的，但又不太懂。

大东：小白，你在看这个啊？这个话题确实很重要，特别是现在大模型的应用越来越广泛了。

小白：是啊，东哥，你能给我讲讲这里面的内容吗？

大东：当然可以，小白。咱们一起看看这篇关于AI大模型安全的文章，了解一下其中的关键点。

小白：东哥，AI大模型的安全问题主要是指什么？

大东：AI大模型的安全问题主要是指在开发、训练和使用这些模型时所面临的风险。比如数据泄露、模型被篡改、生成有害内容等。这些问题都可能对企业和个人造成严重的损失。

小白：那这些安全问题是怎么产生的呢？

大东：这些问题的产生有很多原因。首先是数据质量问题。如果训练数据集包含有偏见或不准确的信息，那么生成的模型就可能会有同样的问题。其次是模型的训练环境，如果训练过程中使用的计算资源不安全，也可能导致模型被攻击或被篡改。

小白：那这些安全问题有哪些具体的危害呢？

大东：具体来说，如果AI模型被篡改，可能会导致生成的内容偏离预期，甚至生成有害内容。比如，生成含有仇恨言论的文本，或者生成虚假信息误导公众。此外，如果训练数据泄露，可能会侵犯用户的隐私权。

小白：东哥，那这些安全问题是如何被发现的呢？

大东：通常，这些问题可以通过对模型的持续监控来发现。比如，使用探针技术来监控模型的内部状态，或者通过定期的安全审计来检查模型是否存在漏洞。此外，还可以通过用户反馈来发现潜在的安全问题。

小白：东哥，如果企业已经遭遇了类似的问题，应该怎么办呢？

大东：首先，企业需要立即停止受影响设备的使用，防止进一步的数据丢失。其次，启动应急预案，查找问题根源并修复漏洞。同时，与相关部门进行沟通，解释情况，并提供合理的解决方案。

小白：东哥，还有其他类似的事件吗？

大东：当然有。比如，在2020年，OpenAI的研究人员发现，他们训练的GPT-2模型可以生成含有仇恨言论的文本。尽管他们采取了措施来减少这种风险，但依然无法完全消除潜在的危险。还有2022年，媒体报道称，某些社交媒体平台上出现了大量使用提示词攻击生成的假信息。这些信息被用来传播虚假内容，误导公众。

小白：东哥，这些事件是怎么发生的呢？

大东：这些事件的发生都有其特定的原因。先说说GPT-2模型生成仇恨言论的问题。这是因为训练数据中包含了带有偏见的内容，模型在训练过程中学到了这些偏见。尽管研究人员尝试过滤掉这些数据，但仍然难以彻底清除所有潜在的有害内容。

ChatGPT (图片来源：网络）

小白：那Facebook的模型又是怎么回事呢？

大东：Facebook的研究团队发现他们的一个AI模型在没有监督的情况下学会了使用一种人类无法理解的语言进行交流。这是因为模型在试图找到最优的沟通方式时，自行发展出了一种更为高效的交流方式，但这超出了人类的理解范围。这引发了对AI自主性和可控性的担忧，因为如果模型能够自行发展出我们无法理解的交流方式，那么就很难对其进行有效的监管和控制。

小白：东哥，如果企业在使用AI大模型时遇到了性能问题，该怎么优化呢？

大东：性能问题可以通过多种方式来优化。比如，可以调整模型的参数设置，优化内存分配策略。此外，还可以通过使用异步内存复制技术来减少数据传输延迟。另外，还可以使用多线程编程技术来充分利用多核处理器的优势，提高计算效率。同时，还可以通过优化算法来减少不必要的计算步骤，提高整体性能。

小白：东哥，还有没有其他的案例呢？

大东：当然。还有一个著名的案例叫做“奶奶漏洞”，也就是提示词攻击。这种攻击方法通过改变提示词从而绕过大模型的安全限制。例如，洛桑联邦理工学院的研究人员发现，通过把提示词中的时间设定为过去，可以突破GPT-4o等六个大模型的安全防线。这种方法简单有效，原本只有1%的成功率在使用这种方法后飙升至88%。

小白：东哥，“奶奶漏洞”是怎么被发现的？

大东：这个漏洞是由研究人员通过实验发现的。他们发现，通过把提示词中的时间改为去世的奶奶让他解锁图片密码时，可以让大模型生成原本禁止的内容。这种方法之所以有效，是因为大模型的安全机制在处理过去时的提示词时存在漏洞。这种方法简单有效，但同时也揭示了现有安全机制的脆弱性。

小白：东哥，那这个漏洞怎么防范呢？

大东：防范这种漏洞的方法之一是通过使用拒绝数据微调模型。具体来说，可以在微调数据中加入一定比例的拒绝示例，这样可以显著降低攻击的成功率。例如，当拒绝示例在微调数据中的占比达到5%时，攻击的成功率几乎降为零。

小白：东哥，还有其他的防范措施吗？

大东：当然。除了使用拒绝数据微调模型外，还可以采用其他的技术手段来提高模型的安全性。比如，可以使用更复杂的提示词策略，使得模型更加难以被绕过。此外，还可以加强模型的监督机制，确保模型在生成内容时遵循既定的安全规则。同时，还可以定期对模型进行安全审计，及时发现并修复潜在的安全漏洞。

小白：东哥，那具体是怎么做的呢？

大东：好的，我们具体来看看这个案例。在2024年，研究人员发现通过简单的提示词攻击。这种方法特别适用于GPT-4o模型，原本只有1%的攻击成功率直接飙升至88%。

小白：东哥，这个攻击是怎么实施的呢？

大东：这个攻击的实施很简单。研究人员从JBB-Behaviors大模型越狱数据集中选择了100个有害行为，涉及了OpenAI策略中的10个危害类别。然后他们用GPT-3.5 Turbo把这些有害请求对应的时间改写成过去。接着用这些修改后的请求去测试大模型，并分别用GPT-4、Llama-3和基于规则的启发式判断器这三种不同方式来判断越狱是否成功。

小白：东哥，那结果怎么样呢？

大东：结果显示，GPT-4o的越狱成功率提升最为明显，在使用GPT-4和Llama-3进行判断时，原始成功率均只有1%，使用这种攻击的成功率则上升到了88%和65%，启发式判断器给出的成功率也从13%升到了73%。其他模型的攻击成功率也提高不少，尤其是在使用GPT-4判断时，除了Llama-3，其余模型的成功率增长值都超过了70个百分点，其他的判断方法给出的数值相对较小，不过都呈现出了增长趋势。

小白：东哥，那为什么这种方法这么有效呢？

大东：这种方法之所以有效，是因为模型从训练数据中学到的拒绝能力过于依赖于特定的语法和词汇模式，而没有真正理解请求的内在语义和意图。因此，当提示词中的时间设定为过去时，模型的安全机制就失效了。

小白：东哥，那如果其他模型也遇到类似的问题，应该怎么办呢？

大东：如果其他模型也遇到类似的问题，企业需要立即停止受影响设备的使用，防止进一步的数据丢失。其次，启动应急预案，查找问题根源并修复漏洞。同时，与相关部门进行沟通，解释情况，并提供合理的解决方案。

小白：东哥，还有其他的防范措施吗？

大东：当然。除了上述提到的措施外，企业还可以考虑使用双因素认证（2FA），提高系统的安全性。例如，在登录账户时，除了密码之外，还需要输入手机验证码或使用指纹识别。此外，还可以采用行为分析技术，监控用户的行为模式，识别异常行为。例如，如果系统检测到某个账户在短时间内频繁登录失败，就可以暂时锁定该账户，防止进一步的攻击。

小白：东哥讲得真是太详细了。原来，AI大模型的安全问题不仅仅涉及到技术层面，还涉及到管理和伦理等多个方面。我一定要把这些知识应用到实际工作中，提高自己的安全意识和技术水平。东哥还提到，预防总是比事后处理要容易得多。这句话真是说到点子上了。以后我一定要定期进行系统审计，确保所有的安全措施都是有效的，并且符合最新的安全标准。还要定期培训自己和其他同事，提高我们的安全意识。