专家提醒莫混淆概念：智能计算机不是超级计算机

中国科学报 2021-06-16 作者：赵广立

　　近日，某城市人工智能（AI）计算中心建成投用，媒体在报道该中心算力时称：“中心一期建设规模100P FLOPS人工智能算力……其算力相当于5万台高性能计算机。”该报道一出，引发高性能计算领域专家关注。相关专家对《中国科学报》表示，该报道内容存在对“超级计算机”与“智能计算机”认识不清、概念混淆，极易引发误导。

　　中国科学院计算技术研究所研究员、中国计算机学会高性能计算专业委员会秘书长张云泉告诉《中国科学报》：“智能计算机不是超级计算机，两者的概念应该区分清楚，否则可能会引起行业混乱。”

　　超级计算机、智能计算机，傻傻分不清楚？

　　目前业界用于衡量超级计算的Linpack测试，测试的是超级计算机的“双精度浮点运算能力”，即64位浮点数字的计算（FP64）。在以二进制所表示数字精度中，还有单精度（32位，FP32）、半精度（16位，FP16）以及整数类型（如INT8、INT4）等。数字位数越高，意味着人们可以在更大范围内的数值内体现两个数值的变化，从而实现更精确计算。

　　与许多科学计算等不同，AI所需的计算力不需要太高精度。“比如一些AI应用需要处理的对象是语音、图片或视频，运行低精度计算甚至整型计算即可完成推理或训练。”张云泉说，这种专用计算机处理AI算法速度快、能耗低，这是由其特点决定的。

　　智能计算机是一种专用算力，它们在推理或训练等智能计算方面的确表现出色，但由于AI推理或训练一般仅用到单精度甚至半精度计算、整型计算，多数智能计算机并不具备高精度数值计算能力，这也限制其在AI计算之外的应用场景使用。

　　相对比而言，超级计算机是一种通用算力，其设计目标是提供完备、复杂的计算能力，在高精度计算能力更强，应用范围更广，比如科学家常使用超级计算机进行行星模拟、新材料开发、分子药物设计、基因分析等科学计算和大数据处理。

　　中国工程院院士陈左宁曾形象地将使用超级计算做AI计算是“大马拉小车”，来说明超级计算虽然“十项全能”，但毕竟不是为AI量身打造。智能计算机由此兴起。

　　此前曾一度热炒AI与超算融合，其实正是将改良的计算机“AI专用化”，严格意义上来说，它们已经不再属于传统超算范畴。

　　近年来，随着AI产业化的深入，不少地方希望建设AI算力平台，以满足日益增长的AI计算需要。但是，一些地方在建设之时，并非都能区分智能计算机与超级计算机之间的区别。

　　“现在不论超级计算中心落成还是智能计算中心，都宣称算力是多少‘FLOPS’，其实这个单位是‘每秒浮点运算能力’，而一些智能计算机的单位其实是‘OPS’——每秒操作次数。如果不加区别地报道，大家很容易误认为是同一种计算精度、同一种计算能力。”张云泉说，这也导致一些地方以为花了小钱建了世界顶级的“大超级计算”，好像占了便宜；等项目上了马，将项目介绍给超算业内人士时，才恍然大悟。

　　用新指标引导行业健康发展

　　张云泉告诉记者，除了混淆智能计算机和超级计算机之外，业内还存在另外一种误导。

　　“有些厂商还会模糊智能计算机的推理性能和训练性能。”张云泉告诉《中国科学报》：“与推理相比，训练性能往往需要计算精度高一些，比如32位甚至64位；而大部分性能‘耀眼’的AI芯片，往往指的是其推理性能，而且可能还只是理论值。”

　　对于AI计算而言，训练性能往往更重要——许多智能模型正是有赖于此。张云泉说，训练模型的计算量与参数量成正比，而且需要反复迭代，直到达到理想中的效果。

　　如果要画一张AI所需算力的示意图，“推理”位于算力矩阵的最下层，因为半精度算力（FP16）或整型算力（如INT8）即可满足推理需要；排在其上的是“训练”，一般需要使用单精度算力（FP32）或半精度算力（FP16）；对算力需求最高的是类脑“模拟”，它的算力需求需要双精度算力（FP64）和低精度算力同时支持。

　　“混淆传统超级计算与智能计算、混淆智能计算的训练性能和推理性能，这两种情况可能会导致用户或地方政府错误决策——如果他们本意是希望建设强大的计算集群，最后却有可能花了不少钱只建成了一台只有推理性能的机器。”张云泉说。

　　对此，张云泉认为，需要一个简单有效的指标来帮助判断系统的AI算力和整个高性能AI领域的发展状况，从而防止行业乱象。

　　2020年11月，张云泉联合清华大学教授陈文光、美国阿贡国家实验室研究员Pavan Balaji和瑞士苏黎世联邦理工学院教授Torsten Hoefler，与ACM SIGHPC China委员会共同发起了基于AIPerf大规模AI算力基准评测程序的“国际人工智能性能算力500排行榜”（即AIPerf500）。记者注意到，这一榜单的算力单位是OPS。

　　“超级计算与AI计算，一码归一码，需要一个新的标尺来引导AI计算行业走上健康发展的道路。”张云泉说。

　　国产AI芯片正待奋蹄直追

　　算力始于芯片。在AI芯片赛道上，我国拥有华为（昇腾）、百度昆仑、燧原等芯片设计企业，但即便如此，国内的智能计算机仍很少能绕过美国GPU巨头英伟达。

　　这是一个无奈的现实：国内上马的诸多智能计算中心，英伟达是切切实实的受益者。

　　“专门做智能计算的AI芯片，只要核数足够多、主频足够高，就可以实现速度更快、在低精度计算中高出几个量级的性能。但如果某个计算集群既需要高精度计算又需要低精度计算，那这对AI芯片的要求就高了。”张云泉说，英伟达的GPU各种精度的计算能力都很突出、比较均衡。这也是大部分国产AI芯片难以与英伟达GPU硬碰硬的原因之一。

　　不过，国产AI芯片并非完全没有机会。

　　首先，当下我国的算力基础设施，都有强烈的国产化意愿。即便英伟达、英特尔等巨头虎踞龙盘，但综合成本、生态等各类因素，国产化的大潮仍不可阻挡。

　　其次，就AI当前发展而言，场景、数据、模型、算力缺一不可，这也就意味着，中国将是未来全球AI算力富集地。AI芯片作为核心需要，不可能被一种形态、一种生态所垄断，寒武纪、昇腾等国产AI芯片的佼佼者仍坐拥巨大发展空间。

　　一位不愿透露姓名的超算专家向《中国科学报》提醒道，虽然芯片是算力的主要来源和最根本的物质基础，但是算力的生产、聚合、调度和释放是一个完整过程，需要复杂系统的软硬件生态共同配合，才能实现“有效算力”。因此，不能只关注芯片的单一性能指标，更要注重上层软件应用生态。

　　没有巨大算力无法发展AI？

　　在算力概念被混淆的背后，是AI计算有如脱缰野马一般疯涨的算力需求。

　　由多位硅谷“大亨”联合建立的人工智能非营利组织OpenAI，在2020年5月推出了其新一代无监督的转化语言模型GPT-3，目前已有1750亿参数，训练数据量达到45TB（约1万亿单词量）。

　　GPT-3模型目前已经在语义搜索、文本生成、内容理解、机器翻译等方面取得重大突破。其最大价值是证实了机器在无监督下的自我学习能力，验证了纯粹通过扩大规模即可以实现性能提升。

　　更壮观的是，万亿参数模型已经在路上。6月初，北京智源人工智能研究院发布了“悟道2.0”，宣称达到1.75万亿参数，超过之前由谷歌发布的Switch Transformer，成为全球最大的预训练模型。

　　迅猛增长的参数体量，也意味着更高的计算需求——有的可能需要数千块GPU来提供必要的算力。张云泉说，类似GPT这样的巨模型，对算力的需求“不是闹着玩的”。

　　难道，没有巨大算力就无法发展AI吗？

　　张云泉认为，在目前AI的发展阶段（感知智能和认知智能）中，算力仍然是第一位的。