提起山东,大家第一时间想到的可能是五岳之首泰山。《诗经》有云,泰山岩岩,鲁邦所瞻,形容的就是泰山令人高山仰止的巍峨。时移事易,到了2022年,以“算赋百业 力导未来”为主题的首届中国算力大会在山东济南召开,全国计算领域人士聚在一起,看到的则是一座顶天立地的算力高山——国家超级计算济南中心,成为新的齐鲁地标。
济南市作为“中国算谷”,国家超级计算济南中心是其算力支撑机构之一,我国首台完全采用自主处理器研制的千万亿次超级计算机“神威·蓝光”,就诞生于此。
以前,大部分人都很关心算力发展,而国家超级计算济南中心的实践说明,数据存力更是算力价值的前提和基础,发挥算力价值之前,首先要构建“数据存力”。国家超级计算济南中心不仅是算力巅峰,还是存力标杆,比如目前已经在山河超级计算集群中落地了分布式存储创新架构。
20世纪50年代,冯诺伊曼在《101页报告》中提出了计算机的核心:存储、计算、控制,奠定了现代计算机的体系结构。从此,算力和存力作为两大高相关资源,其协同发展成为计算产业绕不开的主题。以新加坡、日本、加拿大等国为例,每1GB存储空间对应的算力可达1GFlops,存力和算力相对均衡。国家超级计算济南中心的山河超级计算集群,能够提供超850PFlops的算力,总的存储资源池目前也达到了245PB规模。
如果说算力支撑着千行百业计算需求,那么存力就是容纳吞吐着澎湃算力的乾坤。国家超级计算济南中心,给了我们一个契机,在东数西算工程正式启动的元年,去探寻存算协同发展的答案:数字经济所需要的算力应该由怎样的存力来承载?而算力与存力的协同发展,究竟能给国家重大科研和经济发展带来哪些不可替代的贡献?
道法自然:顶天立地的超算中心
了解国家超级计算济南中心需要怎样的存力,首先需要知道它承载了怎样的计算。
《史记集解》记载,泰山“天高不可及,冀近神灵也”,国家超级计算济南中心所承担的计算任务,也有着类似的高水平,主要是解决其他计算机解决不了的挑战性问题,有着“顶天立地”的作用。
国家科研领域,超算中心服务于国家重大科研需求,主要应用于生物计算、气候模拟、类脑研究、灾害预报、新药研发、基因研究、航空航天、自动驾驶等领域,这些研究的特征之一就是数据密集,对于算力的需求十分庞大。以国家超级计算济南中心的山河超级计算平台为例:该平台服务于山东省大科学计划与大科学工程,为新一代信息技术、现代海洋、新能源新材料、高端装备、医养健康等产业提供算力支撑,要求性能高、算得快。
国计民生领域,超算中心的算力应用涉及国计民生、科技创新,是支撑产业转型升级的战略性基础设施,因此,在满足国家科研任务对性能的巅峰要求之外,超算中心还要兼顾成本普惠、绿色低功耗等需求,支撑数字经济浪潮中层出不穷的应用创新与计算需求。国家超级计算济南中心就有多个计算平台,承载着关乎国计民生的众多应用,对区域科研水平提高和数字经济发展,发挥着重要价值。
从 “顶天立地”的趋势中不难看出,超算中心已经成为衡量国家综合实力的标准之一,也是各国科技战略的必争之地。以对自然环境和生态的模拟、基础物理和生命科学等问题求解为己任的国家超级计算中心,自然也需要与之相匹配的存储能力,包括:底层技术的自主创新、灵活扩展的存储容量、高效吞吐的存储效率等。
国家超级计算中心作为存力的最佳试验场,济南已经率先迈出了探索的步伐。
吐纳天地:存力中见数字乾坤
算力作为生产力,支撑社会经济的数字化转型升级,而存力作为数据地基,在每一次吐故纳新之中,助力数字经济行稳致远。数据存力不仅以存储容量为核心,还包含性能表现、安全可靠、绿色低碳在内的综合能力。数据存力成为数字经济背景下,全社会全产业发展的重要指标。
那么,国家超级计算中心究竟需要怎样的存力呢?国家超级计算济南中心总工程师王继彬在此次大会“以‘数’践行,创新存储架构护航超算科技创新”的主题演讲中指出,济南超算率先落地应用了创新的分布式存储架构,已经有一些经过验证的关键指标:
一、安全可靠。作为国家的战略性基础设施,国家超级计算中心的安全可靠有两层含义,一是底层技术的安全可靠,在新的国际形势下,国家超级计算济南中心承载着众多科研任务,尤其需要存储领域的原创技术,如材料介质、高性能处理器等的系统创新,守护数据基石;二是日常运行中的安全可靠,要求良好的容灾能力,在各类风险,比如自然灾害、网络袭击、人为失误等情况下,仍然保持业务不断,数据不丢。
济南中心所承载的国家对地观测科学数据中心,每天需要对TB级的实时卫星数据进行集中存储和计算,过程中不允许中断,珍贵数据长期存储不能丢失。济南超算基于分布式存储构建的数据存储系统,能够做到7*24小时业务不中断,跨节点保护数据安全,很好地支撑了这一高可靠需求。
二、性能表现。大科学领域HPC应用对存力的容量和效率提出了更高要求,一方面,科学计算的数据规模庞大,需要的存储容量也越大,1台基因测序仪每年产生的数据可达8.5PB,需要超前规划、灵活扩容,比如济南超算的山河超级计算平台,作为服务山东省大科学计划与大科学工程的重大科学装置,总存储资源池就达到了245PB;另一方面,科学计算的存算数据交互频繁,计算任务长,应用负载多元化,访存空间不规则,对存储系统的吞吐性能要求很高。因此,济南超算与华为合作,基于华为OceanStor Pacific分布式高性能并行存储,实现了业内1.3倍的性能提升,在IO500 10节点打榜中获得全球第一的榜单成绩。数据存得下、流得动,是存力的基础指标,为科学计算发挥支撑作用。
三、统一管理。随着数据应用场景增多、AI技术的成熟,智能计算、云平台等新业务成为主流,因此需要多个计算平台针对不同应用输出不同算力。面对异构计算和多样化应用,传统超算中心多个计算集群部署多套存储的方式容易遭遇瓶颈,比如海量数据在不同的资源池中,会形成数据孤岛,给协同分析、价值挖掘带来阻碍。因此,济南超算基于分布式存储,构建了统一数据底座,率先打造出山东省超算互联数据一张图。通过全局统一的数据视图和管理策略,实现不同集群之间的多协议互通,让数据能够跨域、跨集群、跨设备共享与流动,从而助力科学计算的数据价值挖掘与协同分析,加速科技创新。比如山河超级计算平台,就实现了文件、对象和大数据融合存储以及数据的跨域流动。
基于分布式存储创新架构,国家超级计算济南中心联合合作伙伴,完成了一系列关于存力的实践探索,展现出存力与科学计算、数字经济相结合的意义。可以肯定的是,超算中心的顶天立地,靠的不是算力的一枝独秀,而是算力与存力的协同发展。
筑基未来:双轮驱动使能数字经济
听起来,超算中心主要服务于高精尖科研,那么济南超算的存力实践,对普通人来说有意义吗?中国有句话叫“已识乾坤大,犹怜草木青”,存力不仅能包罗容纳科学世界的壮阔,同样也是支撑着每一个人、每一个企业、每一座城市的数字底座,随着数字经济的腾飞,滋养我们习以为常的日常生活、一草一木。
举个例子,大家应该都了解“东数西算”工程的价值,全国算力一张网的逐渐落成,将切实带来产业升级、生活提升、经济发展,让东西部居民都为之受益。而济南超算的分布式存储架构创新实践,对于方兴未艾的东数西算工程就有着极为重要的参考意义。
我们知道,“东数西算”工程旨在构建一个集数据中心、云计算和大数据于一体的新型国家计算网络,这张算力资源网络的本质是以数载算,通过数据流通、分析和消费,让算力转化为GDP产值和社会民生的优化。而数据能否存得下、存得好、流得动、高能效,都取决于存力。
而东西部数据中心间的数据流动,就有一系列问题是需要通过存力提升来解决的:
比如前面提到济南超算不同计算集群中的数据孤岛问题,在东西部的数据流动时也同样存在。通过分布式存储,实现跨域数据安全高效流动和共享,能够提高东西部的数据利用率和协同效率,让算力更充分地发挥GDP带动作用。
再比如,全国算力一张网形成之后,数据却是散落在各处的,如果没有跨地域统一的元数据管理,则无法支撑东西部并行分析,数据存储能效比不高,算力基础设施也就无法取得最大效益。这时候济南超算所落地的统一元数据管理等经验,存力一张网结合算力一张网等技术,将使得管理效率大大提升。
存力和算力,是数字经济高质量发展的一体两面,随着超算互联网和“东数西算”工程的持续推进,存力升级必将成为数字基础设施的演进方向。
国家超级计算济南中心率先打开锦囊,进入了数据驱动第四范式的全新阶段。不难发现,无论高精尖的科研创新,还是接地气的民生福祉,都藏在存力这个吐纳天地的“乾坤袋”中。
接下来,我们将看到中国科技在算力与存力的双轮驱动下,不断鼎革天地。