01.jpg

“天河三号”首秀!超级计算机的CPU数量是最重要的吗?

科普中国网 2018-05-18

  在天津举行的第二届世界智能大会上,国家超算天津中心对外展示了我国新一代百亿亿次超级计算机“天河三号”原型机,这也是该原型机首次正式对外亮相。百亿亿次超级计算机也称“E级超算”,被全世界公认为“超级计算机界的下一顶皇冠”,它将在解决人类共同面临的能源危机、污染和气候变化等重大问题上发挥巨大作用。

  我国的超级计算机主要有银河系列、天河系列、曙光系列、神威系列等,目前计算性能最强的当属已多次蝉联国际超级计算大会(ISC,International Supercomputing Conference)Top500榜单的“神威·太湖之光”。

  据悉,“神威·太湖之光”安装了40960个中国自主研发的“申威26010”众核处理器,该众核处理器采用64位自主申威指令系统,峰值性能为每秒12.5亿亿次,持续性能为每秒9.3亿亿次。简单来说,这套系统1分钟的计算能力,相当于全球72亿人同时用计算器不间断计算32年,如果用2017年生产的笔记本电脑或个人台式机主流配置作参照,神威·太湖之光相当于200多万台普通电脑。

  这里用来衡量超级计算机性能的重要指标是“运算速度”,即计算机每秒钟能进行的运算次数。最初以执行加法运算的次数来表示,后以执行加法、乘法、除法等的平均运算速度来表示。现今,通常所说的计算机运算速度(平均运算速度),是指每秒钟所能执行的指令条数(ips,Instruction Per Second)。计算机每秒钟能够执行450百万条指令,也可以描述为计算机的主频是450MHz。

  超级计算机相对于我们的个人计算机而言,它可以进行极高速度的运算和巨大量的数据处理,其基本组成与个人计算机没有本质差别,都是自下而上由硬件、系统软件和应用软件组成,但规格上大了许多倍,特点是高速度和大容量。由此,不少人认为,构建超级计算机就是在做芯片处理的加法,加在一起的处理器(CPU)越多,计算速度也就越快。甚至在2010年国际超级计算机(SC2010)会议上,还有超级计算机供应商的高管开玩笑说:“将100,000台Android智能手机连起来,就能创造最快的计算速度。”事实并非如此。打个比方,三人共同协作完成任务,除去正常开展任务工作外,还需要耗费人力进行任务分解、任务分配、结果归总等管理工作。管理工作不科学,总体工作效率会大幅降低。也就是说,理论上,在单个CPU性能相当的情况下,超级计算机采用越多的CPU,其运算速度越快。但实际情况并不是1+1=2,超级计算机进行并行计算,如果并行不合理,每个CPU的效能就不会充分发挥出来。

  并行计算是超级计算机的核心技术

  并行计算(Parallel Computing)是指同时使用多种计算资源解决计算问题的过程,是提高计算机系统计算速度和处理能力的一种有效手段。它的基本思想是用多个处理器来协同求解同一问题,即将被求解的问题分解成若干个部分,各部分均由一个独立的处理机来并行计算。并行计算的目的是为了加快求解速度,扩大求解规模。主要方法步骤有:数据划分(把数据集划分为多个子集)、任务分解(将一个应用分解成多个子任务)、处理器指派(把数据子集和任务分配给不同的处理器)、协作执行(各个处理器之间相互协同并行地执行子任务)等。美国国家工程院院士、NVIDIA公司首席科学家兼副总裁、斯坦福大学计算机科学系Bill Dally教授曾说过,“在超级计算机领域,performance=parallelism”。

  异构计算是超级计算机的核心技术

  同构计算是指使用相同类型指令集和体系架构的计算单元组成系统的计算方式,而指使用不同类型指令集和体系架构的计算单元组成系统的计算方式称为异构计算。不同种类的处理器都有适合其处理的任务类型,比如CPU适合做串行,逻辑复杂度高的任务;GPU(Graphics Processing Unit图形处理器,主要用于图形处理和矩阵运算等)适合做简单,并行度高的任务;TPU(Tensor Processing Unit张量处理单元,为机器学习而定制的芯片,主要用于人工智能领域)是一款推理芯片,是为机器学习应用特别开发,适用于深度学习中基于云端数据中心的实时处理阶段,采用整数和矩阵运算,牺牲了精确度,换取更快的速度和更低的能耗。异构计算使用不同类型的处理器来处理不同类型的任务,正所谓术业有专攻。 目前主流的异构计算架构是“CPU+GPU”,其中我国超级计算机天河一号是国际上首台采用CPU+GPU异构计算的超级计算机系统。

  计算性能并非超级计算机系统的终极目标或唯一目标

  除了数值计算,图表(通过节点和分支表示数据间的关联性)解析计算在社交网络、网络安全、金融交易等领用应用越来越广泛。以图表解析性能为指标的超级计算机“Graph500”排行榜在2010年应运而生。Top500侧重于绝对速度的排名,而Graph500则更侧重于实际应用,代表着超级计算机对大数据的吞吐和处理能力。除了Top500和Graph500,在超算领域还有一个评价效能的榜单的Green500,这个榜单更关注单位能量下的运算能力,目的是看看哪些超级计算机“最划算”。从2017年的Green500榜单来看,前五名与中国无缘,“神威-太湖之光”以能效使用率6.051 GFloat/watts排在17位。“天河二号”超级计算机系统已近在100名以外了,以2.078GFloat/watts排在117位。

  中科院计算所孙凝晖研究员说,虽然运算速度已经走到世界前列,但这并不代表整体技术水平也走进世界前列。“天河二号”副总设计师胡庆丰说,“与发达国家尤其是美国相比,中国的超级计算机在核心电子器件、高端通用芯片和基础软件,以及大型行业应用软件等方面存在明显差距。中国的超级计算机主要用户是ISP(互联网服务提供商Internet Service Provider),而美国的情况截然不同,它的超级计算机用户分布非常广泛,有能源,汽车,ISP,地理科学,核武器研究实验室等等。用户的分布单一、民用化和商业化不足是天河系列和整个中国的超级计算机行业都存在的问题。

  超级计算机系统的应用领域非常广阔,计算性能提升领先固然是好事,但更为重要的是,能不能使用这些超算系统研发商业化民用应用平台,为社会公众、百姓生活带来实实在在的改变。中国超算,加油!

  作者:紫色蒲公英(笔名) 橘子科普团队 中国科学院自动化所副研究员

  审核人:北京工业大学教授 于乃功

责任编辑:xujinghui

科普中国APP 科普中国微信 科普中国微博
科普中国网
是中国科协为深入推进科普信息化建设而塑造的全新品牌,旨在以科普内容建设为重点,充分依托现有的传播渠道和平台,使科普信息化建设与传统科普深度融合,以公众关注度作为项目精准评估的标准,提升国家科普公共服务水平。

猜你喜欢