版权归原作者所有,如有侵权,请联系我们

刚刚,中国高校最大云上科研智算平台在复旦大学上线

桂粤科普
桂林理工大学教师,三年科普中国优秀信息员、广东科学传播达人。
收藏

在数据和智能技术驱动的“大科学时代”,高校需要什么样的科研算力平台?刚刚,复旦大学率先打了个样。

6月27日,由复旦大学与阿里云等共同打造的云上科研智能计算平台“CFFF”宣告正式上线。CFFF是“Computing for the Future at Fudan”的缩写,剑指复旦大学未来科研算力池。

CFFF平台正式上线

记者了解到,以复旦大学“博学而笃志,切问而近思”的校训为灵感来源,CFFF平台由智能计算集群“切问一号”和高性能计算集群“近思一号”两部分组成,以公共云模式提供超千块卡并行智能计算,支持千亿参数级的大模型训练,在国内高校中尚属首例,走在了斯坦福大学等国际知名高校的前面,也缔造了中国高校最大的云上科研智算平台。

“CFFF平台是全国高校算力第一的异构智算集群。”复旦大学校长、中国科学院院士金力在接受采访时表示:“CFFF是为发现和解决复杂科学问题而建,是为科研服务的必要基础设施。”

异地算力怎么用?云上传、云上算

作为智超融合的第一高校科研算力平台,CFFF既有面向多学科融合创新的AI for Science智能计算集群“切问一号”,又有面向高精尖研究的专用高性能计算集群“近思一号”。其中,“近思一号”部署在复旦大学校内,“切问一号”则托管在远在1500公里外的阿里云乌兰察布数据中心。

两大集群身处两地,它们是怎样协同响应、互相支撑的?

“两地之间建有一条百G通路的高速数据传输网络。”复旦大学“浩清教授”、人工智能创新与产业研究院院长漆远介绍说,基于百G高速数据传输网和阿里云领先的大规模异构算力融合调度技术、分级存储技术、AI与大数据一体化技术,“近思一号”和1500公里外的“切问一号”被连成了一台“超级计算机”。

这是一台跑在云上的“超级计算机”。漆远介绍说,CFFF不仅算力规模大,“存力”规模也不小。“CFFF拥有国内高校最大规模的多级数据冷热分层存储集群,解决了海量科研数据无法长期备份的痛点,并支持云上高速传输——以往PB级科研数据从复旦校内传到西部数据中心需要两周,如今当天就能完成,真正实现了‘东数西算’。”

阿里云乌兰察布数据中心位于“东数西算”节点上,云上高速传输是“东数西算”架构下题中之义,但实际落地却有诸多困难,这也是为什么“东数西算”模式被认为更适合处理对时效要求不高的冷数据。CFFF平台却做到了真正的“云上传”。

同时,阿里云乌兰察布数据中心以公共云模式为复旦校内多学院、多个科研项目提供智能计算服务的模式,也使得各项目得到的算力更低成本、更绿色、更具弹性。

阿里云乌兰察布数据中心

算力足、传得快、存得多,让CFFF成为一台真正意义上的科研“超级计算机”。漆远表示,在CFFF上,复旦四个校区的所有实验设备都能高速接入,并且做到异构算力统一管理、计算任务统一调度,能满足不同应用场景下的科学智能研究与应用需求。

而有赖于公共云模式,即便有科研项目需要GPU千卡并行、万卡并行的智能算力,CFFF也能响应需求,并且,通过IO优化和通信性能优化,千卡并行有效算力能达到 92%。要知道,传统智算中心达到一定规模之后,增加算力资源反而会降低算力输出的能力,千卡以上规模的算力输出最低往往仅有40%左右。

发布活动后,中国工程院院士、阿里云创始人王坚在回答《中国科学报》提问中,对复旦大学率先以公共云部署未来科研算力平台的理念很是赞赏。

“CFFF这个名字就反映了一种面向科研范式变革的前瞻理念,它的公共属性会最大化支持更多科研人员试炼自己的科研思想。”王坚对记者表示,CFFF从“在复旦、向未来”的立意上就有强烈的开放、共享内涵,这种大科学计算平台的部署理念放之于国际上都是超前的。

他还谈到,人工智能技术的爆发对智能计算提出了更高需求,“大科学时代”同样也在提出类似命题。如何在这个时代支持交叉科学研究、支撑解决复杂科学问题,如何提高智能计算设施的利用率,“云上科研智算平台”这个“好点子”作出了时代回应。

王坚在报告分享中谈校企合作“可以创造出很多美妙的东西”

前瞻部署,异构算力托举科研范式变革

论及复旦大学为何要鼎力打造一个以大规模异构算力为基础的智能计算平台,金力表示,这是复旦以前瞻目光为AI for Science引领的范式变革做前瞻部署。

当今,在机器学习与超算越来越趋于融合的势头下,GPU+CPU结合的异构计算架构已成为新兴的超算架构。早在2020年,高性能计算应用领域最高奖项“戈登贝尔奖”就授予了美国科研团队在由2.7万块GPU和2.7万块CPU为核心构建的超算集群Summit上的分子动力学研究。自此后,大量前沿科学攻关——包括蛋白质计算、药物筛选、自动驾驶及车联网、计算物理学、复杂系统科学、大气海洋地球系统模拟、气候变化综合评估模型模拟、人工智能基础大模型训练等等,都严重依赖高端GPU算力资源。

“每当科研范式存在难以解释的科学发现或者难以解决的问题逐渐积累到引发质变时,新的科研范式就会呼之欲出。”金力说:“大数据越来越大,需要求解的科学问题日益复杂,科学研究正在探索‘第五范式’:即在数据范式的基础上,引入智能技术,强调人的决策机制与数据分析的融合,将数据科学和计算智能有效结合起来。”

金力说,“第五范式”以数据驱动和智能技术驱动的内在特征,对科研数据的归集、治理和管理提出新的要求。因此,以大规模异构算力为基础的智能计算平台将成为今后科研的重要支撑力量。

在这一背景下,复旦大学与阿里云等构建CFFF平台水到渠成。

复旦大学云上科研智算平台CFFF平台界面

搭台唱戏。拥有了CFFF这个国内高校第一的大规模异构智算平台,复旦大学将如何推动“科研范式变革”?

金力表示,他们希望CFFF能够为复旦的基础科学研究提供更强大更稳定、更加灵活高效且低成本的算力支持,利用AI新技术解放科学生产力,加速发现新的科学原理和技术突破;另一方面,他希望基于CFFF平台能够建成一批具有世界级影响力的科学大模型,例如生命科学大模型、大气科学大模型、材料科学大模型、集成电路大模型等等。

45亿参数大模型一天训练完!不止如此……

目前,CFFF平台上的第一个科研成果已经诞生。

复旦大学人工智能创新与产业研究院研究员李昊团队,近期发布了45亿参数量的中短期天气预报大模型“伏羲”。“伏羲”首次将基于AI的天气预报时长提升到15天,且预测效果表现亮眼——在公开数据集上,“伏羲”的成绩达到了长期在该领域领先的欧洲中期天气预报中心的集合平均水平,同时将预测速度从原来的小时级缩短到了3秒内。

这是CFFF平台上孕育出的第一个大模型。“基于CFFF平台的千卡并行智能计算,我们45亿参数的大模型只用一天就完成了训练,这在传统的计算平台是很难做到的。”李昊说,训练该大模型对显存、计算、传输带宽等硬件都有着严苛的要求,而CFFF平台圆满完成了这一任务。

值得一提的是,CFFF上的云原生与低代码工程化AI开发平台,在降低AI与科研融合的门槛方面让不少研究人员印象深刻。相关负责人透露,从开始建设的第一天起,CFFF平台就收到了来自复旦大学不同院系的多种研究需求,涵盖生命科学、大气科学、材料科学领域,也包括金融系统分析等社会科学研究。

“CFFF平台一上线,我们就拥有了一个‘大科学装置’,让做科研如虎添翼。”中国科学院院士、复旦大学化学系教授赵东元对CFFF平台推进AI for Science研究充满期待。他结合自己在介孔材料领域多年的研究谈到:“实验科学的数据非常多。如果可以用 CFFF通过文献数据找到设计一种材料的最佳路线,将会节省很多时间,我们对物质的研究也会更加深入。”

研究方向为理论计算化学的复旦大学化学系教授刘智攀,曾在本科阶段将计算机作为第二专业选修。有了CFFF平台,他看到了科研上极大的便利和新的机会。

“当把CPU和GPU连接起来以后,它就可以做超大的模型。”刘智攀认为,现在新的学术增长点,很多都在交叉学科。“靠传统方法很多时候是研究不彻底的,这个时候需要物理的方法、计算的方法去理解它。交叉学科的意义在于,通过一些专业手段和平台,大大加速待研究问题的难度、深度和广度,从而做出更好的科学发现。”

金力告诉记者,CFFF建成后,接下来的重要任务就是对全体师生用好CFFF的能力升级。目前,CFFF平台的团队管理由复旦大学人工智能创新与产业研究院支撑保障。保障团队中,既有专门的技术运营组负责平台培训、计算资源管理和安全运营;也有专门负责算力优化、以及和基础研究对接的团队。

“CFFF团队除了要做好技术支撑外,还要为不熟悉AI算法的研究团队提供架构和代码优化服务,协同提升科研效率。”金力说。

科学网

,赞540

编辑 | 赵路