“10年来,数学、计算机与生命科学交叉领域发生了显著变化。如今,随着大模型、人工智能等技术的发展,各个学科面临巨大挑战,到了必须要‘交叉’的时候了。这无论对现代科学的发展,还是服务国家战略需求,都非常重要。”中国科学院院士、中国科学院数学与系统科学研究院研究员马志明为青年科研人员鼓劲打气。
近年来,ChatGPT等深度学习大模型的诞生,给几乎每个学科领域带来了新机遇。基于数据、信息而生的生物信息学无疑将迎来新变化,它的下一个10年在哪里?
近日,第十届“数学、计算机与生命科学交叉研究”青年学者论坛在北京举办。会上,多位院士专家、优秀中青年学者与学生共同交流生物信息学的前沿进展,展望生物信息学未来的发展。
“暗箱”待开
在人类生物医学发展史上,遗传密码的破解使得生物医学进入了大数据时代,生物信息学也驶入了“快车道”。
“这是划时代的变化,生物医学已进入用数据刻画的时代,数据带来了海量的信息。”中国科学院院士陈润生说,上世纪90年代,他参加了人类基因组和水稻基因组的分析研究,那时,生物信息学还比较冷门。
而事实上,生物信息学给生命科学研究带来了一场变革。
陈润生举例说,基于大数据的大规模测序,我们能够更好地抵御未来烈性传染病的侵害;基于大数据,医生有了准确的靶向判断,严重的肿瘤疾病也可防可治。“大数据带来大信息牵引的精准医学,已经成为新一轮国家科技竞争的战略制高点。”
“但大数据也带来了新的挑战,那就是我们并不了解它的生物医学本质。”陈润生指出,以生物组学大数据为例,它是复杂的,也是不同尺度、多维度和异质化的,比如病历是用自然语言写出来的,生理生化指标是波形的,胸片是影像的,而组学数据是字符串形式的。那么,这些不同标记如何协调统一共同分析,是大数据分析的难题之一。另一个挑战是,数据指标是动态和非线性的。
“随着越来越多表征疾病数据的产生,我们需要理解疾病是怎么发生的、导致疾病的因素是什么。这就好比‘暗箱’,想要打开它,就需要用人工智能对生物医学数据进行深度挖掘。”陈润生说。
大模型的出现,或许是生物信息学新变革的开始。
陈润生表示,大模型的工作方式必然会深入到各个环节,但不需重造,更多的是利用,未来大模型和生物医学是更高层次的结合。“推动大模型向真实的大脑学习,不仅是训练它的学习量,更多的是看清脑的复杂结构组成。”
大科学引领大发现
打开“暗箱”的工作,单靠一个学科或领域并不现实。正如中国科学院院士贺福初所说,生物信息学的未来,更多是需要数学和系统科学等学科的深度参与,这可能将生物信息学带往新的方向。
贺福初呼吁,未来要进一步探索生命科学理论或基本规律。
“大科学时代产生了大数据,能够形成规律性的总结吗?”贺福初表示,只有在数学等其他科学的基础之上,才可能从大数据中提炼信息,发现知识和重要原理。
事实上,这在2000多年前就已有印证。古希腊毕达哥拉斯学派相继发现,算术的本质是“绝对的不连续量”,音乐的本质是“相对的不连续量”,几何的本质是“静止的连续量”,天文学的本质是“运动的连续量”。他们因此认为,数学是通向理性世界的必备工具。
后来的科学发展也表明,数学作为整个自然科学的基础,奠定了很多学科“大发现”的基石。
自从生命科学进入大数据时代,关于生命的基因组数据增长速度是摩尔定律的4倍。然而,在贺福初看来,基因组无法解释生命的生老病死。
“时空各异,基因组相同;生老病死,基因组不变。”贺福初表示,诸多生命现象无法从基因组层面得以阐明,必须通过蛋白质组在时间、空间上的动态变化,发掘生命现象的本源与本质。
基于此,由贺福初领衔的“人体蛋白质组导航计划”,使命是解读人体蛋白质组的构成原理与变化规律,实现蛋白质组学驱动的医学范式转变,共创智慧医学新时代。
“科学大发现时代离不开学科交叉。”贺福初强调,生命科学将借助数学、计算科学与人工智能进入大发现时代。
下一个十年需要更多年轻人
前辈的指导与鼓励给年轻人带来更多信心。
论坛共同主席、中国科学院数学与系统科学学院研究员张世华告诉《中国科学报》,10年前,他是一名助理研究员,那时,每个领域的学者都不少,但在交叉学科里缺少交流的机会和平台。于是,他与中国科学院遗传与发育生物学研究所研究员王秀杰一起倡导、发起、组织论坛,加强从事数学、计算机与生命科学交叉研究的青年学者之间的联系,交流生命科学与计算生物学研究领域的最新成果。
当年很多初出茅庐的年轻人和学生,如今都已成为数学、计算机与生命科学交叉领域里的中流砥柱。他们希望在生物信息学的下一个10年迎来更多的年轻力量。
北京大学生物医学前沿创新中心研究员张泽民曾供职于高新技术企业,他对产业和学术都有深刻的感受。在他看来,“生物信息学领域技术总在变,但它的科学思维和目标一直没变,所以无论技术如何变化,我们关注的焦点在于如何把数据信息变成知识,从数据和新技术中挖掘更多机会”。
在人工智能大模型时代,生物数据几乎6个月翻一番,生物信息学会有哪些变化?
同济大学生命科学与技术学院教授张勇表示,生物信息学可能更多从实验学科向理论学科转变、从理科向工科转变。
“如何把大模型应用于生命科学领域,除了要了解数据外,更重要的是要提出一个好问题,这比关注模型本身更重要。”北京大学生命科学学院研究员高歌说。
陈润生指出,伴随大数据在生物、医学中的深度应用,以及物质资源向数据资源的不断迁移,未来10年对生物信息的需求会越来越迫切和广泛。为此,加强生物信息学的学科建设、鼓励源头创新、培养人才队伍非常重要。同时,也期待生物信息学领域研究人员在科技创新和国家经济社会发展中作出更多更大的贡献。
《中国科学报》 (2023-06-29 第3版综合)