技术演进的意外结果：游戏与加密货币怎么就成了AI的“算力底座”？-

在刚刚过去的春天，我们见证了新世纪以来规模最大的科技狂欢。用“雨后春笋”来形容这几个月人工智能（AI）的发展都会显得过于保守，“大爆炸”可能是更合适的形容——就连原百度总裁、行业大牛、公认“最有干劲”的陆奇博士也说自己“（论文和代码）跟不上了，实在是太多了。”

回想 2022 年 11 月 30 日，新时代的大门突然打开。OpenAI 公司发布了 ChatGPT，人们惊觉 AI 重现了 AlphaGo 的辉煌——而且这次更全面。以 GPT-3 为代表的生成式人工智能似乎拥有了全面的语言处理能力，而 MidJourney、Stable Diffusion 则让绘画不再是人类独有的手艺。接下来的几个月，大语言模型（LLMs，Large Language Models）成了人尽皆知的关键词，微软、谷歌、脸书（Meta）这些互联网巨头重新站回风口浪尖。

国内企业也纷纷发力。百度的“文心一言”、商汤的“日日新”、阿里的“通义”、腾讯的“混元”、华为的“盘古”都亮了相。到 5 月，各种企业和教学科研机构院校发布的大模型已经超过 30 种，大有“构建新时代 IT 底座”的豪情，真可称得上“日日工业革命，夜夜文艺复兴”。

图库版权图片，不授权转载

当然，AI 的未来并非没有隐忧。彭博社在 2023 年 3 月初的一篇文章中说，谷歌公司每年的用电总量中，有 10%~15%是被AI项目吃掉的。这大约相当于亚特兰大50万人整整一年的生活用电量。根据国际数据公司（ IDC）的预测，目前 AI 的能源消耗占全球能源消耗的约 3％；2年以后的2025 年，这个数字将猛增到 15％，与之伴随而来的是对环境的巨大影响。

从这个意义上说，能源是AI的第一个底座。也许 AI 在造福全人类之前，先会撞上能源之墙。

这些能源是怎么被AI吃掉的？

可是，AI为什么会这么耗电？这就牵扯到它的**另一个底座：**算力。AI 是计算密集型技术，在 ChatGPT 这样的应用中更是如此。它需要大量算力，自然也需要大量能源。

掀起最近的 AI 浪潮的，是深度学习（Deep Learning）技术，它会构建分成多层的人工神经网络（即深度神经网络），其中每个神经元都有自己的可调节参数。大语言模型往往意味着数十亿、上百亿甚至更多的参数，这是获得良好结果的保证；而在此基础上，还需要庞大的数据集，来教会模型如何做出正确的反应。支撑这两者的，就是强大的计算能力。

**算力、数据和算法是 AI 的三要素，缺一不可。**发布之初，ChatGPT 的背后是 GPT-3 模型。这个模型包含了 1750 亿个参数，使用了 45T 的数据来训练，训练一次的算力需求大约是 3640 PF-day——也就是说，如果使用每秒钟运算 1000 万亿次的计算设备，完成一次训练需要 3640 天。

图库版权图片，不授权转载

这还只是训练而已。把 AI 模型放在现实环境中来回答问题或者采取行动——这被称为“推理”——比训练更耗能。根据芯片巨头英伟达的估计，GPT-3 这样的模型，会有 80% 到 90% 的成本花在推理而非训练上。

AI 的训练和推理之所以需要这么多算力，主要有三方面原因：数据集的膨胀、参数的增长，以及模型的收益递减规律。大致上，数据越多，模型学到的就越多，这和人类的学习类似；而和人类学习不同的是，当在更大的数据集上多次迭代学习时，消耗的能量也会迅速增加。

模型参数增加时，人工神经元之间的连接会呈指数增加，所需的计算量和能量也会飙升。在先前的一个测试案例里，模型的参数数量增加了 4 倍，而耗能增加了 18000 倍。

更糟糕的是，**模型并不是越大越好，它也同样存在性价比问题。**2019 年，美国艾伦人工智能研究所（AI2）的研究人员发表了一篇论文，证明了大模型的边际收益递减现象：2017 年发布的 ResNeXt 模型和它2015年的原版相比，所需算力增加了 35%，但准确率只提高了 0.5% 。

然而，在找到最优平衡前，人们还是得努力堆算力。OpenAI 公司发表的一篇文章说，从 2012 年到现在，用于人工智能的计算量增加了 30 万倍，即大概每过 100 天，AI 的计算量就翻一番。

这大概是 AI 时代的新摩尔定律。

算力：AI时代的摩尔定律

1965 年，英特尔公司的联合创始人戈登·摩尔（Gordon Moore）提出了一条经验规律，认为集成电路上可容纳的晶体管数量将会以每两年翻倍的速度增长。这意味着，每过 20 年，同样大小的集成电路上，晶体管的数量将增加 1000 倍；每过 40 年，则是 100 万倍。

今天我们所在的信息时代，就建立在摩尔定律的基础上。它一直是计算机技术发展的重要推动力。

从某种意义上说，摩尔定义带来的推动力只是“外因”。计算机技术的发展还需要一点“内因”的影响——它来自人类的天性：玩。

“游戏”和“拥有”的渴望一直刻在我们的基因里，早在“人”这个物种还没有诞生时便是如此。计算机刚被发明出来没有多久，游戏就成了它的重要用途。早在1952 年，美国计算机科学家阿瑟·塞缪尔（Arthur Samuel）就在一台 IBM 计算机上写出了第一个跳棋程序。后来，他还创造了“机器学习”一词。今天，这个词和“人工智能”经常一起出现。1966年，美国计算机科学家、图灵奖得主肯·汤普森（Kenneth Thompson）为了能继续玩自己开发的“星际旅行”游戏，干脆写了一个操作系统，还顺手设计了一门编程语言。那个操作系统就是后来的 Unix。今天计算机上的 Linux 和 macOS 操作系统、手机上的 Android 和 iOS 操作系统都可以算成它的近亲。而那门编程语言，就是大名鼎鼎的 C 语言。

图库版权图片，不授权转载

1982 年，IBM 推出了个人计算机（PC）。PC 游戏的出现顺理成章。更快的硬件会催生更强大的软件，更强的软件会逼迫硬件升级，两者像藤蔓般纠缠在一起。1992 年，大受欢迎的 3D 游戏《德军总部 3D》诞生。在 3D 游戏中，画面渲染计算的难度并不大，但是对计算速度的要求很高。在这类游戏中，环境和角色都是用许多多边形构建起来的。它们的形状和位置取决于顶点的3D坐标。显卡需要对许多顶点执行矩阵乘法与除法运算，才能确定这些模型该如何在平面的屏幕上准确呈现；然后，还需要对每个像素做一番计算，才能确定每个像素的颜色。这些计算需要很快的速度，因为 3D 游戏往往是移步换景的。

幸好，这些计算难度不高，而且彼此大都是独立的。所以，专门用于显示的显卡应该擅长完成这些并行计算，并能快速传输数据。这样的需求，让计算机显卡的核心图形处理器（ GPU）走上了和计算机 CPU 不同的道路。GPU 可以专为图像处理优化。

在进入新世纪后，摩尔定律失效的苗头越来越明显。加工工艺逐渐接近物理极限，晶体管越来越小，越来越难以制造和集成，散热和电力供应也越来越成问题。于是，多核心逐渐成为主流的解决方案；无论是 CPU 还是 GPU，都朝着多核心的方向一路狂奔。

紧接着，比特币就出现了。

以比特币为代表的加密货币是被计算出来的，这个过程叫做“挖矿”。挖矿需要大量的并行计算能力，每秒钟要执行数百万次。在加密货币价格上涨的日子里，“挖矿”成了利润丰厚的商业活动，为了追求更多的财富，狂热的“矿主”甚至把显卡买到缺货——而这样的需求又进一步刺激了对算力突破的需求。

芯片厂商最初研发GPU的时候，怎么可能会想到，很多年后，这些“游戏装备”竟然被拿来“挖矿”了呢？

技术自有安排

没想到的事情，又何止这么一件？

2010 年，美国空军买了大约 2000 台索尼公司生产的 PlayStation 3 游戏主机。这是要让飞行员们通过玩儿游戏来训练吗，还是干脆就是军官们想玩儿游戏了？

都不是。

在物理学家卡纳（Guarav Khanna）的一番操作之后，这些游戏主机被连在一起，成了一台专门用于处理高分辨率卫星图像的超级计算机。它的浮点运算性能比当时市场上的最强显卡还要强至少30倍。即使是10多年后的现在，最强的消费级显卡也只能勉强达到它的1/5。

这显然也是索尼公司和游戏玩家们没想到的事情。不过，倒也不难理解。游戏主机本来就是为了游戏优化的——PlayStation 3 使用的芯片，有独立的 CPU 和 GPU 协同工作，能利用 8 个核心来完成双重任务，还可以在所有核之间共享信息。

如今，AI 也需要这些能力。今天 AI 的主要技术是深度学习，而深度学习的基本思想是“联结主义”：尽管神经网络中的单个神经元不具备智能，但大量神经元连接在一起，往往就会“涌现”出智能。关键是神经元数量要多，神经网络规模要大——模型能力的提升关键之一，就是网络规模的变化。

**显然，网络规模越大，对计算能力的需求就越高。**今天的大型神经网络通常使用 GPU 来计算。因为神经网络所使用的算法，往往会涉及到大量的参数，它们会在每一次训练迭代时更新。要更新的内容越多，对内存带宽的要求就越高，而 GPU 的优势之一就是内存带宽。而且，神经网络的训练算法往往在神经元级别上相对独立且简单，所以还可以利用 GPU 的并行计算能力来加速处理。

图库版权图片，不授权转载

这当然不是显卡的设计用途。但是误打误撞地，显卡成了 AI 时代的基础设施。正是游戏和加密货币，在一定程度上帮助后来的AI打下了这样的“算力底座”。从某种意义上说，这是技术自己的安排。

技术总是出人意料

今天，AI 已经开始推动社会和工业变革。若是没有显卡，也许我们不会这么快看到 AI 走进生活。而显卡，源自人们的热情和创新精神，特别是对游戏和加密货币的追逐。这大概算是个有点意外的开端。

著名科学作家里德利（Matt Ridley）在其名作《自下而上》里说，**技术创新和生物的演化一样，没有特定的方向，只有在经过一番优胜劣汰之后，最合适的技术才会发展壮大。**而某种技术一旦成为主流，又会不断地自我改进。技术像是变成了一种独特的生物，有了自己的发展方向。随着技术进步，那些受到欢迎的技术会继续累积，发展速度会变得越来越快。

凯文·凯利（Kevin Kelly）也有些相似的观点。他在《科技想要什么》中谈到，科技的发展不是线性的，而是充满了曲折和反复；科技的演进往往复杂而不确定，未来的发展往往出乎人们的意料。

所以，AI 的耗能问题，也许会有出乎意料的解法。现在人们已经开始尝试让 AI 不那么耗电，如降低精度、模型压缩、模型裁剪等技术；也在积极探索可再生能源技术的应用，来提供更环保的能源。这当然是个好的开始。

把这个问题留给 AI 来探索，也许会有令人惊喜的答案吧！

作者｜猛犸哈尔滨理工大学

审核｜于旸腾讯安全玄武实验室负责人

本文封面图片及文内图片来自版权图库

图片内容不授权转载

技术演进的意外结果：游戏与加密货币怎么就成了AI的“算力底座”？

微信扫一扫：分享