版权归原作者所有,如有侵权,请联系我们

Transformer到底是何方神圣?揭秘大模型背后的硬核技术

重庆市科学技术协会
原创
重庆市科学技术协会倾力打造的科普资源共享平台。
收藏

过去几年间,大模型的飞速发展,不仅推动了生成式AI的进步,也为各行各业带来了前所未有的变革。而大模型之所以能够取得如此成就,核心在于Transformer架构作为其支撑力量发挥了至关重要的作用。

具有哪些优势?

Transformer是一种广泛应用于自然语言处理(NLP)中的深度学习模型,通过引入注意力机制(Attention Mechanism),能够高效地处理输入信息,并在长序列中保持信息的流动。

据悉,Transformer于2017年在论文《Attention is All You Need》中首次引入,此后成为深度学习模型的首选架构,为文本生成模型提供支持。除了文本,Transformer还应用于音频生成、图像识别、蛋白质结构预测,甚至游戏等众多领域,这主要归功于几个关键因素:

第一,长上下文

注意力机制可以将输入序列中的所有令牌相互比较。因此,整个输入中的信息将被记录并用于生成输出。相比之下,循环神经网络(RNN)会忘记较旧的信息,卷积神经网络(CNN)只能使用靠近每个令牌的信息。这就是为什么可以上传数百页内容给大模型聊天机器人,询问其中任何一页的问题,并获得准确回应的原因。RNN和CNN缺乏长上下文是Transformer在任务中击败它们的最大原因。

第二,并行性

Transformer中的注意力机制可以在输入序列中的所有令牌上并行执行。这与RNN顺序处理令牌不同。因此,Transformer可以更快地训练和部署,为用户提供更快地响应。这种并行处理能力显著提高了Transformer相对于RNNs的效率。

第三,可扩展性

研究人员不断增加Transformer的规模和使用来训练它们的数据量。Transformer模型越大,它能理解和生成的文本就越复杂和细致,例如,GPT-3有1750亿个参数,而GPT-4超过1万亿个。与构建一个包含10亿参数的模型相比,扩大Transformer的规模至一个拥有100亿参数的模型,并不会显著增加所需的时间。这种可扩展性使得Transformer成为各种高级应用的强大工具。

缺点亦不容忽视

然而,尽管Transformer具有诸多优势,但其缺点亦不容忽视。Transformer在处理长序列时具有二次方的时间和空间复杂度,即输入中的每个令牌都与其他每个令牌进行比较,两个令牌会有4次比较,三个令牌会有9次,四个令牌会有16次,依此类推。基本上,计算成本是令牌数量的平方,这意味着需要大量的计算资源。具体来看:

一是需要专门的硬件。大模型无法在普通计算机上高效运行。由于大模型的参数量非常大且结构十分复杂,通常需要大量的RAM来加载模型参数。并且,传统的CPU没有针对并行计算进行优化,运行的大模型可能需要几分钟才能生成一个令牌,这使得GPU成为更合适的选择。然而,GPU并不是最便宜或最容易获得的硬件。

二是输入长度有限。Transformer可以处理的文本量有限,也就是上下文长度。GPT-3最初只能处理2,048个令牌。注意力实施的进步产生了上下文长度高达100万令牌的模型。即便如此,找到每一个额外的上下文长度仍需要进行大量研究。

三是增加能源成本。支持Transformer架构计算的数据中心不仅依赖于大量的能源维持运行,还需要充足的水资源来实现有效冷却。据估计,训练GPT-3需要1300兆瓦时的电力。随着模型变大,所需的电力也在增加。另据科研机构Digiconomist的预测,到2027年,AI的用电量可能等同于荷兰一年的电力使用。

我们认为,Transformer无疑是推动AI领域创新发展的关键力量。尽管面临一些挑战,但随着技术的不断进步,这些问题有望逐步得到改善和解决。

写在最后:

总而言之,Transformer已经成为自然语言处理领域的一项重大突破,为技术进步开辟了新的途径。展望未来,我们有理由相信,Transformer将持续助力人工智能的蓬勃发展,并在更多领域展现出其潜力。

供稿单位:重庆天极网络有限公司
审核专家:李志高
声明:除原创内容及特别说明之外,部分图片来源网络,非商业用途,仅作为科普传播素材,版权归原作者所有,若有侵权,请联系删除。

内容资源由项目单位提供