截至2022年,我国已建成21个国家级大数据中心基地。一根根特殊的网络虚拟专线,跨越千山万水,实现了我国重要数据的同步传输和异地备份。而随着海量数据的急速增加,存储规模也越来越大。保障计算机系统在自然灾害等突发情况下的可靠性,是大数据中心的核心要求之一,已经上升为国家战略,写入我国“十四五”规划。
▲2022年胡燏翀被评为华科大“校十佳青年教工”
来自华中科技大学(以下简称“华科大”)计算机科学与技术学院的教授胡燏翀就是这样一位长期扎根计算机系统数据可靠性领域的青年学者。近年来,他已针对大规模分布式存储系统所面临的“成本高、故障多、扩展慢”三大挑战,围绕极致存储开销、高效故障修复、高效存储扩展3个核心科学问题取得系列性成果,实现了高效可靠性存储编码在“理论-算法-系统”的完整技术链路。基于相关成果,胡燏翀于2018年获湖北省科技进步奖一等奖,2021年获国家重点研发计划青年科学家项目,2022年获国家级青年人才计划项目。
胡燏翀将自己的研究总结为“三快”:让编码速度更快,让修复速度更快、让扩容速度更快。追风逐电,向更快进发,让数据存储更可靠、高效、安全,是他研究工作的主要任务。当前,相关先进技术为国外垄断。胡燏翀扎根“三快”研究,正是满怀科技报国热情,希望携手海康威视、华为、新华三、浪潮等民族企业同心协力产学研,实现我国在相关核心技术领域的自主可控,实现不利局面之下的弯道超车、自立自强。
兴趣为航,投身数据存储研究
1985年,在总结和吸收少年班的办学成功经验基础上,中国科学技术大学(以下简称“中科大”)针对高考成绩优异的学生,仿照少年班模式,开办“教学改革试点班”(又称“零零班”),两类学生由少年班管理委员会统一管理、相互补充、相得益彰。2001年,胡燏翀以优异的成绩被中科大少年班录取,成为其中的零零班学子。
少年班精英云集,一向成绩拔尖的胡燏翀在这里深刻感受到山外有山、人外有人的道理,因此奠定了终身学习、不断精进的人生态度。从小就对计算机感兴趣的他,在少年班自由灵活的氛围中,从大一开始就有针对性地学习计算机方面的内容,并最终选择计算机科学与技术作为自己的专业。
2005年本科毕业后,凭借突出的表现,胡燏翀获得直博资格,继续留在中科大深造计算机软件与理论方向。“我那时对科研满怀憧憬,甚至这种激情至今影响着我。从来不管难不难,不懂就问、不会就学,并总是得到导师积极的回应。”在自身努力和导师许胤龙教授悉心的教诲下,胡燏翀开展了面向计算机存储领域的可靠性编码理论研究。彼时,分布式存储新型编码研究刚刚兴起,其中的前沿方向网络编码技术的创立者之一正是香港中文大学(以下简称“港中大”)网络编码研究所联席主任杨伟豪教授。在聆听杨伟豪相关讲座时,胡燏翀敏锐地察觉到分布式存储与网络编码技术的发展潜力,对相关研究萌生了兴趣,也为之后的一段师生缘分埋下了伏笔。
分布式存储以网络技术为基础,利用小型服务器等搭建存储池,以其廉价和高扩展性的特点适用于对信息的海量存储。但由于分布式服务器节点易发生故障而丢失数据,如何保障数据的高可靠性就成为亟须解决的问题。2009年,经过深入钻研,胡燏翀关于分布式存储容错的修复机制的研究成果发表在计算机通信领域顶级期刊《IEEE通信选定领域期刊》(IEEE Journal on Selected Areas in Communications,IEEE-JSAC)。这篇论文是早期网络编码和分布式存储结合的重要论文之一,为胡燏翀后续在分布式大规模大数据中心下的可靠性编码技术研究奠定了良好的理论基础。“我也因此获得了港中大的博士后职位,而我当时的博士后导师就是杨伟豪教授。”
▲胡燏翀(右一)组织进行课题组会议
2010年到2015年,胡燏翀先后在港中大的网络编码研究所和计算机科学与工程系开展博士后研究。在网络编码研究所期间,胡燏翀成为第一批将可靠性编码应用到云存储系统中的博士后研究员。相关成果发表在国际计算机存储领域的A类会议“文件和存储技术会议”(UsenixConference on File and Storage Technologies,FAST)中,受到学界认可。港中大的研究环境开放活跃,学术交流络绎不绝,胡燏翀在这里进一步接触了学界的前沿思想,为后续科研生涯积累了丰富的底蕴和资源。
“华科大计算机科学与技术学院院长冯丹教授,也是信息存储系统教育部重点实验室的主任,在国内外存储领域名声斐然,我的研究也受到冯丹教授团队不少工作的启发。”胡燏翀说。2015年博士后工作结束,胡燏翀带着沉甸甸的科研果实告别香港回到家乡武汉,以副教授身份加入了华科大计算机科学与技术学院的冯丹教授团队,由此开启了新的科研征程。
创新编码,为多领域提供支撑
信息存储系统教育部重点实验室,亦是武汉光电国家研究中心光电信息存储研究部,数据存储系统与技术教育部工程研究中心。实验室的信息存储技术研究始于1974年,已有40多年的历史。现有50余名教师、300余名博士和硕士研究生,是中国在信息存储领域研究人员最多且水平一流的研究单位和重要的人才培养基地之一。在冯丹教授的团队中,胡燏翀不仅得到了来自各方的资金支持、项目支持,也获得了成熟的科研路线等方面的指导,接连承担重要科研任务。其中,大比例(条带)纠删码(Wide-stripe Erasure Coding,WEC)系列技术是他的代表性成果之一,也是他和团队在国际上率先提出的一项重要成果。
“海康威视与华中科技大学具有紧密的校企合作关系,共建‘海量信息存储联合实验室’。2018年,海康威视提出需求,希望能利用大比例编码降低存储成本。当时国际上在这方面只有理论,相关的技术实践只有一家国外公司在做,但细节并未公开。”为解决海康威视遇到的难题,胡燏翀基于自己的网络编码技术背景,开始大海捞针一般的探索,不停地仿真,尝试找到最好的编码。其间,他一度陷入误区。“当时,最新的编码成果都属于小比例编码领域,于是我也从这里入手,苦苦仿真,却一直没有得到想要的结果。”
后来,胡燏翀灵机一动,从2012年前后的网络编码技术的原始论文入手设计大比例编码。他带领团队在国际上率先提出了大比例纠删码系列技术成果,论文再次发表于“文件和存储技术会议”(FAST),并由于在计算机领域的应用,相关成果还发表于计算机超算领域顶会“全球超级计算大会”(Supercomputing Conference,SC)。海康威视应用相关成果后,不仅节省了20%的存储成本,还超过了微软云和亚马逊云的存储成本降幅。研究工作取得31项专利,授权19项,并于2018年获得湖北省科技进步奖一等奖。此后,胡燏翀将大比例纠删码技术超低成本的优势分别应用于高性能计算、大数据中心、全闪集群等不同领域之中,解决各种不同的需求。
面对海量增长的数据、越来越大的存储规模,大力发展中国存储产业,掌握数字经济竞争主动权势在必行。然而,面对构建传统大规模存储系统的主要存储介质——机械硬盘(Hard Disk Drive,HDD)已被美国和日本的三大厂商所垄断(西部数据、希捷及东芝)的现状,中国在HDD领域寻求突破异常困难。与此同时,随着我国国产整机和闪存生产能力的逐步提升,研究“去HDD”大规模存储系统下相关核心技术,以固态硬盘(Solid State Disk, SSD)取代HDD的时机已经到来。
“我们必须抓住这个弯道超车的机会。”胡燏翀语气坚定地说。在他看来,“去HDD”大规模存储系统下相关核心技术,将会是未来国家战略和企业发展的重大需求之一,而当前阻碍其大规模应用的主要原因在于其成本高昂,是HDD成本的三至五倍。因此,他在2022年申请获批了“面向低冗余成本的大规模全闪集群下大比例纠删码技术研究”的面上项目,将此前提出的大比例编码技术应用到SSD上,大大降低了SSD成本,为国内大规模闪存集群提供了重要的技术支撑。
在高性能计算领域,胡燏翀指出,新一代高性能计算系统的研制,将大幅提升我国算力,满足国家发展的战略需求。但随着并行计算系统规模扩展到千万核级别,处理器、内存故障频频发生,同时网络连通度也会因频发故障而大大降低,因而系统的计算、存储、传输三大性能将因“故障频发”而受到严重影响。为应对频发的故障,保障千万核并行计算系统的可靠性,须解决“大规模并行计算系统故障频发下性能保障关键”科学问题。因此,他申请并获批主持了国家重点研发计划“大规模并行计算系统的可靠性编码理论和技术研究”青年科学家项目。
针对“故障频发下性能保障”关键科学问题,胡燏翀将通过研究,重点解决3项关键技术:面对大规模并行计算系统节点故障的低开销容错技术,降低处理节点故障给系统所带来的性能负担;面对大规模并行计算系统低连通度网络的高效传输技术,提升低连通度网络下的传输效率;基于大规模并行计算系统故障特征的容错优化加速技术,进一步提升系统容错性能。最后,基于相关成果,构建起可验证的并行计算系统函数库、仿真软件和原型系统,转化落地,解决实际问题。
近5年来,胡燏翀在不懈努力下已发表论文50余篇,包括计算机学会A类会议/期刊25篇,B类会议/期刊15篇。技术应用于海康威视、华为、浪潮、中兴等多家民族企业。
立足需求,产学研合作促转化
回首学术生涯,胡燏翀最感恩的就是诸位导师与学术前辈。“我的博士生导师许胤龙教授毕业于北大数学系,他的研究侧重理论,做事情十分严谨,培养了我严谨踏实的科研作风。在港中大,我的博士后导师之一李柏晴教授侧重系统工程,对研究领域孜孜不倦,具有令人尊敬的工匠精神,培养了我注重研究深度的习惯和工程实践的能力。来到华科大以后,冯丹教授大大拓宽了我对科学研究的理解,我在她的点拨下,对科研工作有了整体把握,具备了独当一面的能力。”胡燏翀的科研道路因此逐渐步入正轨,不断取得成果。
科研之余,胡燏翀担任院长助理,负责科研和学科建设工作,协助学院完成双一流建设相关工作。同时,他还热心教育,2015年以来他指导的研究生多次获得华科大研究生国家奖学金,他还带领学生于2021年获得“华为中国大学生ICT大赛”TECH4ALL特别奖(4/50),研究成果智能音乐手套能够帮助听觉障碍者感受音乐,受到中央电视台采访报道。此外,他曾参与教研项目,获得优秀图书奖一等奖;参与教育部-阿里云产学合作协同育人项目。基于突出的表现,2022年胡燏翀被评为华中科技大学“校十佳青年教工”。
胡燏翀喜欢读科幻小说,脑海天马行空的同时,步伐却格外坚实。他说,科幻允许对现实技术进行未来推测,而科研则让大量科幻的推测变为现实。“这一路以来我之所以坚持创新,就是想要改变现实。”人工智能时代的到来,让大数据中心也面临着升级为智能数据中心的局面。未来的智能数据中心的可靠性需求场景会如何发展?胡燏翀给出自己的答案:“我想相比以往,数据存储不仅要安全,还要响应更快,与人的互动更高效。同时,在数据存储的精确性上会有所下降。”面对这种新的应用场景,胡燏翀正和同行做着各种各样的准备工作,凝练新的破局思路,从国家需求出发,产学研结合,让更多成果实现转化,助力国家实现技术上的自立自强。