Transformer到底是何方神圣？揭秘大模型背后的硬核技术-

过去几年间，大模型的飞速发展，不仅推动了生成式AI的进步，也为各行各业带来了前所未有的变革。而大模型之所以能够取得如此成就，核心在于Transformer架构作为其支撑力量发挥了至关重要的作用。

具有哪些优势？

Transformer是一种广泛应用于自然语言处理(NLP)中的深度学习模型，通过引入注意力机制(Attention Mechanism)，能够高效地处理输入信息，并在长序列中保持信息的流动。

据悉，Transformer于2017年在论文《Attention is All You Need》中首次引入，此后成为深度学习模型的首选架构，为文本生成模型提供支持。除了文本，Transformer还应用于音频生成、图像识别、蛋白质结构预测，甚至游戏等众多领域，这主要归功于几个关键因素：

第一，长上下文

注意力机制可以将输入序列中的所有令牌相互比较。因此，整个输入中的信息将被记录并用于生成输出。相比之下，循环神经网络(RNN)会忘记较旧的信息，卷积神经网络(CNN)只能使用靠近每个令牌的信息。这就是为什么可以上传数百页内容给大模型聊天机器人，询问其中任何一页的问题，并获得准确回应的原因。RNN和CNN缺乏长上下文是Transformer在任务中击败它们的最大原因。

第二，并行性

Transformer中的注意力机制可以在输入序列中的所有令牌上并行执行。这与RNN顺序处理令牌不同。因此，Transformer可以更快地训练和部署，为用户提供更快地响应。这种并行处理能力显著提高了Transformer相对于RNNs的效率。

第三，可扩展性

研究人员不断增加Transformer的规模和使用来训练它们的数据量。Transformer模型越大，它能理解和生成的文本就越复杂和细致，例如，GPT-3有1750亿个参数，而GPT-4超过1万亿个。与构建一个包含10亿参数的模型相比，扩大Transformer的规模至一个拥有100亿参数的模型，并不会显著增加所需的时间。这种可扩展性使得Transformer成为各种高级应用的强大工具。

缺点亦不容忽视

然而，尽管Transformer具有诸多优势，但其缺点亦不容忽视。Transformer在处理长序列时具有二次方的时间和空间复杂度，即输入中的每个令牌都与其他每个令牌进行比较，两个令牌会有4次比较，三个令牌会有9次，四个令牌会有16次，依此类推。基本上，计算成本是令牌数量的平方，这意味着需要大量的计算资源。具体来看：

一是需要专门的硬件。大模型无法在普通计算机上高效运行。由于大模型的参数量非常大且结构十分复杂，通常需要大量的RAM来加载模型参数。并且，传统的CPU没有针对并行计算进行优化，运行的大模型可能需要几分钟才能生成一个令牌，这使得GPU成为更合适的选择。然而，GPU并不是最便宜或最容易获得的硬件。

二是输入长度有限。Transformer可以处理的文本量有限，也就是上下文长度。GPT-3最初只能处理2,048个令牌。注意力实施的进步产生了上下文长度高达100万令牌的模型。即便如此，找到每一个额外的上下文长度仍需要进行大量研究。

三是增加能源成本。支持Transformer架构计算的数据中心不仅依赖于大量的能源维持运行，还需要充足的水资源来实现有效冷却。据估计，训练GPT-3需要1300兆瓦时的电力。随着模型变大，所需的电力也在增加。另据科研机构Digiconomist的预测，到2027年，AI的用电量可能等同于荷兰一年的电力使用。

我们认为，Transformer无疑是推动AI领域创新发展的关键力量。尽管面临一些挑战，但随着技术的不断进步，这些问题有望逐步得到改善和解决。

写在最后：

总而言之，Transformer已经成为自然语言处理领域的一项重大突破，为技术进步开辟了新的途径。展望未来，我们有理由相信，Transformer将持续助力人工智能的蓬勃发展，并在更多领域展现出其潜力。

供稿单位：重庆天极网络有限公司
审核专家：李志高
声明：除原创内容及特别说明之外，部分图片来源网络，非商业用途，仅作为科普传播素材，版权归原作者所有，若有侵权，请联系删除。