近年来,AI for Science 发展提速,不仅为科研领域带来创新研究思路,同时也拓宽了 AI 的落地通路,为其提供了更多具有挑战性的应用场景。在这个过程中,越来越多的 AI 领域研究人员开始关注医疗、材料、生物等传统科研领域,探索其中的研究难点与行业挑战。
上海交通大学长聘轨副教授谢伟迪深耕于计算机视觉领域,于 2022 年回国,投入到了医学人工智能的研究中。在 HyperAI超神经联合出品的 COSCon’24 AI for Science 论坛中,谢伟迪教授以「Towards Developing Generalist Model For Healthcare」为题,从开源数据集构建、模型开发等多个角度分享了团队的成果。
上海交通大学长聘轨副教授谢伟迪
HyperAI超神经在不违原意的前提下,对其深度分享进行了整理汇总,以下为演讲精华实录。
医疗人工智能已是大势所趋
医疗研究关乎每个人的生命健康,至关重要。同时,医疗资源不均衡的问题长久以来未被根治,所以我们希望能够推进医疗普适化,帮助大家获得高质量诊疗。
ChatGPT 或是近年来发布的其他大模型,都将医疗作为性能测试的主战场。如下图所示,在美国医师执业资格考试 (United States Medical Licensing Examination) 中,2022 年前,大模型能够达到 50 分的水平,彼时人类能达到 70 分,所以 AI 并没有引起医生的过多关注。
随着 GPT 3.5 的发布,其评分达到了 60.2,有了极大提升,而后 Google 发布了 Med-PaLM 及其更新版本,最高得分达到了 86.5,如今的 GPT-4 能到 90 分。这样的高性能表现与迭代速度让医生们开始重视 AI,现在很多医学院都会开设一个新学科:智能医学。
同样地,不仅医学生要学习人工智能,**AI 专业的学生也可以在最后一年课程中学校医学知识,**哈佛大学等院校的 AI 专业已经设置了相关课程。
但从另一方面来看,Nature Medicine 等学术期刊的研究表明,大语言模型其实并不懂医疗。例如,大模型目前还不懂 ICD code(国际疾病分类系统中的诊断代码),也很难像医生一样根据患者的检查结果及时提供下一步就医指导。可以看到,大模型在医疗领域仍存在的诸多局限性,我认为它永远无法替代医生,而我们团队想做的是让这些模型能够更好地辅助医生。
团队初级目标:构建通用医疗人工智能系统
我于 2022 年回国开始进行医疗人工智能的相关研究,所以今天分享的主要是团队近两年来的成果。医疗行业涉猎广泛,我们研发的模型不敢说通用,但是希望能够覆盖尽可能多的重要任务。
如下图所示,**在输入端,我们希望能够支持多种模态,**例如图像、音频、患者健康档案等。输入到多模态通用医疗模型 (Multi-modal Generalist Model for Medicine) 后,医生可以与其进行交互。**模型的输出至少有 2 种形式,其一是视觉 (Visual),**通过分割 (Segmentation)、检测 (Detection) 等方式,找到病灶的位置。**其二是文本 (Text),**输出诊断结果 (Diagnosis) 或报告 (Report)。
我个人是计算机视觉出身,据我观察,视觉和医疗的一个很大区别在于,医学、尤其是循证医学领域的知识,大多都是从人类的经验中总结而来,一位初学者如果能够穷尽所有医学书籍,至少能够成为理论上的医学专家,所以,**在模型训练过程中,也希望能够将所有医疗知识注入其中。**因为如果模型缺乏基础的医疗知识,很难取得医生及患者的信任。
所以,总结来看,我们团队的初级目标就是构建一个多模态的通用医疗模型,并将医学知识尽可能全面的注入其中。
最初,我们开始定义通用模型,逐渐发现构建一个像 GPT-4 一样无所不能的医疗模型并不现实。因为医院里分布了诸多科室,每个科室的任务也不同,通用模型很难覆盖全部任务。**所以我们选择通过 Agent 的方式来实现。**如下图所示,中间的通用模型由多个子模型组成,而每个子模型本质上就是一个 Agent,最终以 Multi Agent 的形式来构建通用模型。
其优势在于不同 Agent 能够接受不同输入,所以在模型的输入端能够更加复杂多样化;多个 Agent 在一步一步处理不同任务的过程中也能够形成思维链;输出端也更加丰富,例如一个 Agent 就能够完成 CT、MRI 等多类医学图像分割;同时,还具备更好的可扩展性。
贡献高质量开源数据集
围绕构建多模态通用医疗模型的大目标,接下来我将从开源数据集、大语言模型、疾病诊断 Agent 等多个方面介绍团队的成果。
首先是我们在开源数据集方面的贡献。
医疗领域并不缺少数据集,但由于设计隐私问题,开放可用的高质量数据相对稀缺。作为一个学术团队,我们希望能够为行业贡献更多优质的开源数据,所以我回国后就开始着手进行大规模医疗数据集的构建。
在文本方面,我们收集了超 3 万本医学书籍,包含 40 亿 tokens;爬取了 PubMed Central (PMC) 中的所有医学文献,包含 480 万篇论文、750 亿 tokens;在互联网上,收集了中文、英语、俄语、日语等 8 个语种的医学书籍,并将其转换为文本。
此外,**我们还构建了医疗领域的 Super Instructions,**兼顾任务多样性,罗列了 124 项医疗任务,涉及 1,350 万 samples。
文本数据比较容易获取,但是 Vision-Language(图像-文本对)却比较难取得。我们爬取了 Radiopaedia 网站上约 20 万个案例,还收集了论文中的图像及其说明文字,以及从放射科的基础报告中获取的超 3 万 volumes。
目前,我们的数据大部分都已经开源。
上图右侧展示的是其他公开数据集,例如 UK Biobank,我们付费购买了英国近 10 万患者持续 10 年的数据;此外,Pathology Outlines 提供全面的病理学知识。
在 Grounding Data 方面,**就是我刚刚提到的分割 (Segmentation) 和检测 (Detection) 数据,**我们将市面上能够找到的近 120 个放射学影像公开数据集统一到一个标准下,从而得到了超 35,000 个 2D/3D 放射学扫描影像,**覆盖 MR、CT、PET、US 这 4 种模态,有 40 万细颗粒度的标注,这些数据覆盖了身体的 500 个器官。**同时,我们也扩充了对于病灶的描述,并将这些数据集全部开源。
**持续迭代,打造专业医疗大模型
语言模型 (Language Model)**
只有高质量的开源数据集才能帮助学生、科研人员进行更好地模型训练。接下来,我将介绍团队在模型上的成果。
首先是语言模型,这是一个能将人类知识快速注入到模型中的一种方式。去年 4 月,我们推出了一个名为 PMC-LLaMA 的模型,相关研究以「Towards Building Open-source Language Models for Medicine」为题,发表于 JAMIA。
这是我们研发的第一个开源医疗领域的大语言模型,将医学数据和刚刚提到的论文数据全部训到模型中,进行自回归式训练,然后进行指令微调,将数据转换为问答对。
耶鲁大学研究人员在其论文中提到, **PMC-LLaMA 是领域内最早推出的开源医疗大模型,**后续也有很多研究人员将其当做 baseline,但是在我看来, PMC-LLaMA 与闭源模型还存在差距,所以我们后续也会持续迭代升级这个模型。
随后,我们又在 Nature Communications 上发表一篇成果:「Towards Building Multilingual Language Models for Medicine」,推出了多语言医疗大模型,覆盖英语、中文、日语、法语、俄语和西班牙语这 6 类语种,用 250 亿医疗相关 tokens 进行训练。由于现在缺乏统一的多语言标准测试集,所以我们还构建了一个相关的 benchmark,供大家进行测试。
在实践中我们发现,随着基座模型的升级,向其中注入医疗知识,所得到的医疗大模型性能也会有所提升。
上述所提到的任务大多是「选择题」,但我们都知道,在医生的实际工作中不可能只做选择题,所以我们希望大语言模型嵌入到医生工作流中也是以自由文本的形式。针对于此,我们在新的研究中,更加聚焦临床任务,收集相关数据集,提升模型面向临床的可扩展能力。
目前相关论文仍在审核中。
视觉-语言模型 (Visual-language Model)
同样地,我们也是医疗领域内比较早期开始进行视觉-语言模型研究的团队。基于上述提到的数据,我们构建了 3 个开源数据集:
* 从 PubMed Central 收集到 160 万对大型图像-标题配对数据,构建了 PMC-OA 数据集;
* 从 PMC-OA 中生成了 227,000 个医学视觉问答对,构成了 PMC-VQA;
* 从 Radiopaedia 种收集了 53,000 个病例,48,000 个多图像-标题对,构建了 Rad3D 数据集。
基于这些数据集,我们结合已经完成训练的语言模型,训练了 3 个版本的视觉-语言模型:PMC-CLIP、MedVInT、RadFM。
PMC-CLIP 是我们在医学人工智能影像领域顶会 MICCAI 2023 上发表的一项成果,**最终获评「Young Scientist Publication Impact Award, Final List」,**该奖项是在近 5 年的论文中评选出 3-7 篇获奖论文。
RadFM (Radiology Foundation Model) 现在比较流行,很多研究人员用它做 baseline。在训练过程中,我们是将文字-图像交织的形式输入到模型中,能够根据问题直接生成回答。
增强特定领域知识,提高模型性能
所谓的知识增强表征学习 (Knowledge-enhanced Representation Learning),需要解决的就是如何将医学知识注入到模型中,我们也围绕这个挑战进行了一系列研究。
首先要解决「知识」从哪儿来。**一方面是医学常识 (General Medical Knowledge),**来源于互联网,以及医疗领域最大的知识图谱 UMLS 对外出售的相关论文和书籍;**另一方面是特定领域知识 (Domain-specific Knowledge),**例如病例、放射学影像、超声等;同时还有关于解剖学的知识 (Anatomy Knowledge),都可以在一些网站中获取,当然这里尤其要注意的是版权问题,有些网站上的内容是不能用的。
得到这些「知识」之后,我们就能够绘制一个知识图谱,从而建立起疾病-疾病、药物-药物、蛋白质-蛋白质之间的关系,并且附带具体的描述。
**上图左侧是我们建立的病理知识图谱 (Knowledge Graph) 和知识树 (Knowledge Tree),**主要针对癌症诊断,因为癌症的病发位置可能在人体的各个器官,同时也会划分不同亚型,适合做成 Tree 的结构化形式。类似地,除了多模态病理学,我们还围绕多模态放射学与多模态 X-ray 进行了相关研究。
下一步,就是将这些知识注入语言模型,让模型记住图谱及图谱中各个点之间的关系。而一旦语言模型训好,视觉模型只需要向语言模型对齐即可。
我们将成果与 Microsoft 和 Stanford 的相关成果进行了对比,结果显示,增加了领域知识的模型,性能远高于其他没有领域知识的模型。
面向病理学,我们的论文「Knowledge-enhanced Visual-Language Pretraining for Computational Pathology」入选了机器学习顶会 ECCV 2024 (Oral)。在这项成果中,我们建立一个 knowledge tree,并将其注入模型训练,然后将视觉与语言对齐。
更进一步,我们用同样的方法构建了多模态放射学影像模型,成果以「Large-scale long-tailed disease diagnosis on radiology images」为题发表于 Nature Communications。该模型能够直接根据患者的放射学影像输出对应的病症。
总结来看,我们的工作实现了一个完整的流程——首先是构建了最大的放射学影像开源数据集,包含 20 万影像、41,000 个患者的影像,覆盖 930 种疾病等等;其次是构建了增强特定领域知识的多模态、多语言模型;最后还构建了相应的 benchmark。
关于谢伟迪教授
上海交通大学长聘轨副教授,国家(海外)高层次青年人才,上海市海外高层次人才计划,上海市启明星计划获得者,科技部科技创新 2030 —「新一代人工智能」重大项目青年项目负责人,国家基金委面上项目负责人。
他博士毕业于牛津大学视觉几何组 (Visual Geometry Group, VGG),师从 Professor Andrew Zisserman,Professor Alison Noble,是首批 Google-DeepMind 全额奖学金获得者,China-Oxford Scholarship 获得者,牛津大学工程系杰出奖获得者。
主要研究领域为计算机视觉,医学人工智能,共发表论文超 60 篇,包括 CVPR,ICCV, NeurIPS, ICML, IJCV, Nature Communications 等,Google Scholar 累计引用超 12,500 余次,多次获得国际顶级会议研讨会的最佳论文奖和最佳海报奖、最佳期刊论文奖,MICCAI Young Scientist Publication Impact Award Finalist;Nature Medicine,Nature Communications 特邀审稿人,计算机视觉和人工智能领域的旗舰会议 CVPR,NeurIPS,ECCV 的领域主席。