技术演进的意外结果:游戏与加密货币怎么就成了AI的“算力底座”?

科普中国
公众科普,科学传播。
收藏

在刚刚过去的春天,我们见证了新世纪以来规模最大的科技狂欢。用“雨后春笋”来形容这几个月人工智能(AI)的发展都会显得过于保守,“大爆炸”可能是更合适的形容——就连原百度总裁、行业大牛、公认“最有干劲”的陆奇博士也说自己“(论文和代码)跟不上了,实在是太多了。”

回想 2022 年 11 月 30 日,新时代的大门突然打开。OpenAI 公司发布了 ChatGPT,人们惊觉 AI 重现了 AlphaGo 的辉煌——而且这次更全面。以 GPT-3 为代表的生成式人工智能似乎拥有了全面的语言处理能力,而 MidJourney、Stable Diffusion 则让绘画不再是人类独有的手艺。接下来的几个月,大语言模型(LLMs,Large Language Models)成了人尽皆知的关键词,微软、谷歌、脸书(Meta)这些互联网巨头重新站回风口浪尖。

国内企业也纷纷发力。百度的“文心一言”、商汤的“日日新”、阿里的“通义”、腾讯的“混元”、华为的“盘古”都亮了相。到 5 月,各种企业和教学科研机构院校发布的大模型已经超过 30 种,大有“构建新时代 IT 底座”的豪情,真可称得上“日日工业革命,夜夜文艺复兴”。

图片

图库版权图片,不授权转载

当然,AI 的未来并非没有隐忧。彭博社在 2023 年 3 月初的一篇文章中说,谷歌公司每年的用电总量中,有 10%~15%是被AI项目吃掉的。这大约相当于亚特兰大50万人整整一年的生活用电量。根据国际数据公司( IDC) 的预测,目前 AI 的 能源消耗占全球能源消耗的约 3%;2年以后的2025 年,这个数字将猛增到 15%,与之伴随而来的是对环境的巨大影响。

从这个意义上说,能源是AI的第一个底座。也许 AI 在造福全人类之前,先会撞上能源之墙。

01

这些能源是怎么被AI吃掉的?

可是,AI为什么会这么耗电?这就牵扯到它的**另一个底座:**算力。AI 是计算密集型技术,在 ChatGPT 这样的应用中更是如此。它需要大量算力,自然也需要大量能源。

掀起最近的 AI 浪潮的,是深度学习(Deep Learning)技术,它会构建分成多层的人工神经网络(即深度神经网络),其中每个神经元都有自己的可调节参数。大语言模型往往意味着数十亿、上百亿甚至更多的参数,这是获得良好结果的保证;而在此基础上,还需要庞大的数据集,来教会模型如何做出正确的反应。支撑这两者的,就是强大的计算能力。

**算力、数据和算法是 AI 的三要素,缺一不可。**发布之初,ChatGPT 的背后是 GPT-3 模型。这个模型包含了 1750 亿个参数,使用了 45T 的数据来训练,训练一次的算力需求大约是 3640 PF-day——也就是说,如果使用每秒钟运算 1000 万亿次的计算设备,完成一次训练需要 3640 天。

图片

图库版权图片,不授权转载

这还只是训练而已。把 AI 模型放在现实环境中来回答问题或者采取行动——这被称为“推理”——比训练更耗能。根据芯片巨头英伟达的估计,GPT-3 这样的模型,会有 80% 到 90% 的成本花在推理而非训练上。

AI 的训练和推理之所以需要这么多算力,主要有三方面原因:数据集的膨胀、参数的增长,以及模型的收益递减规律。大致上,数据越多,模型学到的就越多,这和人类的学习类似;而和人类学习不同的是,当在更大的数据集上多次迭代学习时,消耗的能量也会迅速增加。

模型参数增加时,人工神经元之间的连接会呈指数增加,所需的计算量和能量也会飙升。在先前的一个测试案例里,模型的参数数量增加了 4 倍,而耗能增加了 18000 倍。

更糟糕的是,**模型并不是越大越好,它也同样存在性价比问题。**2019 年,美国艾伦人工智能研究所(AI2)的研究人员发表了一篇论文,证明了大模型的边际收益递减现象:2017 年发布的 ResNeXt 模型和它2015年的原版相比,所需算力增加了 35%,但准确率只提高了 0.5% 。

然而,在找到最优平衡前,人们还是得努力堆算力。OpenAI 公司发表的一篇文章说,从 2012 年到现在,用于人工智能的计算量增加了 30 万倍,即大概每过 100 天,AI 的计算量就翻一番。

这大概是 AI 时代的新摩尔定律。

02

算力:AI时代的摩尔定律

1965 年,英特尔公司的联合创始人戈登·摩尔(Gordon Moore)提出了一条经验规律,认为集成电路上可容纳的晶体管数量将会以每两年翻倍的速度增长。这意味着,每过 20 年,同样大小的集成电路上,晶体管的数量将增加 1000 倍;每过 40 年,则是 100 万倍。

今天我们所在的信息时代,就建立在摩尔定律的基础上。它一直是计算机技术发展的重要推动力。

从某种意义上说,摩尔定义带来的推动力只是“外因”。计算机技术的发展还需要一点“内因”的影响——它来自人类的天性:玩。

“游戏”和“拥有”的渴望一直刻在我们的基因里,早在“人”这个物种还没有诞生时便是如此。计算机刚被发明出来没有多久,游戏就成了它的重要用途。早在1952 年,美国计算机科学家阿瑟·塞缪尔(Arthur Samuel)就在一台 IBM 计算机上写出了第一个跳棋程序。后来,他还创造了“机器学习”一词。今天,这个词和“人工智能”经常一起出现。1966年,美国计算机科学家、图灵奖得主肯·汤普森(Kenneth Thompson)为了能继续玩自己开发的“星际旅行”游戏,干脆写了一个操作系统,还顺手设计了一门编程语言。那个操作系统就是后来的 Unix。今天计算机上的 Linux 和 macOS 操作系统、手机上的 Android 和 iOS 操作系统都可以算成它的近亲。而那门编程语言,就是大名鼎鼎的 C 语言。

图片

图库版权图片,不授权转载

1982 年,IBM 推出了个人计算机(PC)。PC 游戏的出现顺理成章。更快的硬件会催生更强大的软件,更强的软件会逼迫硬件升级,两者像藤蔓般纠缠在一起。1992 年,大受欢迎的 3D 游戏《德军总部 3D》诞生。在 3D 游戏中,画面渲染计算的难度并不大,但是对计算速度的要求很高。在这类游戏中,环境和角色都是用许多多边形构建起来的。它们的形状和位置取决于顶点的3D坐标。显卡需要对许多顶点执行矩阵乘法与除法运算,才能确定这些模型该如何在平面的屏幕上准确呈现;然后,还需要对每个像素做一番计算,才能确定每个像素的颜色。这些计算需要很快的速度,因为 3D 游戏往往是移步换景的。

幸好,这些计算难度不高,而且彼此大都是独立的。所以,专门用于显示的显卡应该擅长完成这些并行计算,并能快速传输数据。这样的需求,让计算机显卡的核心图形处理器( GPU) 走上了和计算机 CPU 不同的道路。GPU 可以专为图像处理优化。

在进入新世纪后,摩尔定律失效的苗头越来越明显。加工工艺逐渐接近物理极限,晶体管越来越小,越来越难以制造和集成,散热和电力供应也越来越成问题。于是,多核心逐渐成为主流的解决方案;无论是 CPU 还是 GPU,都朝着多核心的方向一路狂奔。

紧接着,比特币就出现了。

以比特币为代表的加密货币是被计算出来的,这个过程叫做“挖矿”。挖矿需要大量的并行计算能力,每秒钟要执行数百万次。在加密货币价格上涨的日子里,“挖矿”成了利润丰厚的商业活动,为了追求更多的财富,狂热的“矿主”甚至把显卡买到缺货——而这样的需求又进一步刺激了对算力突破的需求。

芯片厂商最初研发GPU的时候,怎么可能会想到,很多年后,这些“游戏装备”竟然被拿来“挖矿”了呢?

03

技术自有安排

没想到的事情,又何止这么一件?

2010 年,美国空军买了大约 2000 台索尼公司生产的 PlayStation 3 游戏主机。这是要让飞行员们通过玩儿游戏来训练吗,还是干脆就是军官们想玩儿游戏了?

都不是。

在物理学家卡纳(Guarav Khanna)的一番操作之后,这些游戏主机被连在一起,成了一台专门用于处理高分辨率卫星图像的超级计算机。它的浮点运算性能比当时市场上的最强显卡还要强至少30倍。即使是10多年后的现在,最强的消费级显卡也只能勉强达到它的1/5。

这显然也是索尼公司和游戏玩家们没想到的事情。不过,倒也不难理解。游戏主机本来就是为了游戏优化的——PlayStation 3 使用的芯片,有独立的 CPU 和 GPU 协同工作,能利用 8 个核心来完成双重任务,还可以在所有核之间共享信息。

如今,AI 也需要这些能力。今天 AI 的主要技术是深度学习,而深度学习的基本思想是“联结主义”:尽管神经网络中的单个神经元不具备智能,但大量神经元连接在一起,往往就会“涌现”出智能。关键是神经元数量要多,神经网络规模要大——模型能力的提升关键之一,就是网络规模的变化。

**显然,网络规模越大,对计算能力的需求就越高。**今天的大型神经网络通常使用 GPU 来计算。因为神经网络所使用的算法,往往会涉及到大量的参数,它们会在每一次训练迭代时更新。要更新的内容越多,对内存带宽的要求就越高,而 GPU 的优势之一就是内存带宽。而且,神经网络的训练算法往往在神经元级别上相对独立且简单,所以还可以利用 GPU 的并行计算能力来加速处理。

图片

图库版权图片,不授权转载

这当然不是显卡的设计用途。但是误打误撞地,显卡成了 AI 时代的基础设施。正是游戏和加密货币,在一定程度上帮助后来的AI打下了这样的“算力底座”。从某种意义上说,这是技术自己的安排。

04

技术总是出人意料

今天,AI 已经开始推动社会和工业变革。若是没有显卡,也许我们不会这么快看到 AI 走进生活。而显卡,源自人们的热情和创新精神,特别是对游戏和加密货币的追逐。这大概算是个有点意外的开端。

著名科学作家里德利(Matt Ridley)在其名作《自下而上》里说,**技术创新和生物的演化一样,没有特定的方向,只有在经过一番优胜劣汰之后,最合适的技术才会发展壮大。**而某种技术一旦成为主流,又会不断地自我改进。技术像是变成了一种独特的生物,有了自己的发展方向。随着技术进步,那些受到欢迎的技术会继续累积,发展速度会变得越来越快。

凯文·凯利(Kevin Kelly)也有些相似的观点。他在《科技想要什么》中谈到,科技的发展不是线性的,而是充满了曲折和反复;科技的演进往往复杂而不确定,未来的发展往往出乎人们的意料。

所以,AI 的耗能问题,也许会有出乎意料的解法。现在人们已经开始尝试让 AI 不那么耗电,如降低精度、模型压缩、模型裁剪等技术;也在积极探索可再生能源技术的应用,来提供更环保的能源。这当然是个好的开始。

把这个问题留给 AI 来探索,也许会有令人惊喜的答案吧!

作者|猛犸 哈尔滨理工大学

审核|于旸 腾讯安全玄武实验室负责人

本文封面图片及文内图片来自版权图库

图片内容不授权转载

评论
传承解惑
大学士级
技术像是变成了一种独特的生物,随着技术进步,那些受到欢迎的技术会继续累积,发展速度会变得越来越快。
2023-05-11
科普62a1537e
学士级
科技成果日新月异。
2023-05-11
科普5f0291786352a
少师级
2023-05-11