人类医生,会因为 ChatGPT 等大模型纷纷下岗吗?
这种担心,并非空穴来风。毕竟,谷歌的大模型(Med-PaLM 2)已经轻松拿下了美国医学执照考试,达到了医学专家的水平。
然而,一项最新研究表明:在临床方面,人类医生完胜目前的人工智能(AI)模型,无需过于担心个人「失业问题」。
相关研究论文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”为题,已于近日发表在科学期刊 Nature Medicine 上。
该研究发现,即使是目前最先进的大语言模型(LLM)也无法为所有患者做出准确诊断,且表现明显差于人类医生——
医生的诊断正确率为 89%,而 LLM 的诊断正确率仅为 73%。在一个极端情况(胆囊炎诊断)下,LLM 正确率仅为 13%。
更令人惊讶的是,随着对病例信息的了解增多,LLM 的诊断准确度反而会降低,有时甚至会要求进行一些可能对患者有严重健康风险的检查。
化身急诊科医生,LLM 表现如何?
尽管 LLM 可以轻松拿下美国医学执照考试,但医学执照考试和临床案例挑战适合只测试考生的一般医学知识,难度远不如日常复杂的临床决策任务。
临床决策是一个多步骤的过程,需要从不同来源收集和整合数据,并不断评估事实以达成基于证据的患者诊断和治疗决策。
为了进一步研究 LLM 在临床诊断中的潜力,来自慕尼黑工业大学的研究团队及其合作者基于医疗信息市场重症监护数据库(MIMIC-IV)制作了一个涵盖 2400 个真实患者案例和 4 种常见腹部疾病(阑尾炎、胰腺炎、胆囊炎和憩室炎)的数据集,模拟现实的临床环境,重现从急诊到治疗的过程,从而评估其作为临床决策者的适用性。
图|数据集来源及评估框架。该数据集来源于 MIMIC-IV 数据库中的真实病例,包含住院期间记录的全面电子健康记录数据。评估框架反映了一个现实的临床环境,从多个标准对 LLM 进行全面评估,包括诊断准确性、遵循诊断和治疗指南的情况、遵循指令的一致性、解释实验室结果的能力,以及对指令变化、信息量和信息顺序变化的鲁棒性。ICD,国际疾病分类;CT,计算机断层扫描;US,超声波;MRCP,磁共振胰胆管成像。
研究团队测试了 Llama 2 及其衍生版本,包括通用版本(如 Llama 2 Chat、Open Assistant、WizardLM)和医学领域对齐的模型(如 Clinical Camel 和 Meditron)。
由于 MIMIC 数据的隐私问题和数据使用协议,数据不能用于如 OpenAI 或 Google 的外部 API,因此未能测试 ChatGPT、GPT-4 和 Med-PaLM。值得注意的是,Llama 2、Clinical Camel 和 Meditron 在医学许可考试和生物医学问答测试中的表现已达到甚至超过了 ChatGPT。
测试对照组为四位来自两个国家且有不同年限(分别是 2 年、3 年、4 年和 29 年)急诊经验的内科医生。结果显示,LLM 在临床诊断中的表现远不如人类医生。
1.LLM 的诊断性能显著低于临床
医生结果显示,当前 LLM 在所有疾病的整体表现上显著逊色于医生(P < 0.001),诊断准确性差距在 16%-25% 之间。虽然模型在简单的阑尾炎诊断中表现较好,但在胆囊炎等其他病理的诊断中表现不佳,特别是 Meditron 模型在胆囊炎诊断中失败,常将患者诊断为“胆结石”。
专业医学 LLM 在整体表现上未显著优于其他模型,而当 LLM 需要自行收集所有信息时,其表现会进一步下降。
图|全信息提供条件下的诊断准确率。数据基于 MIMIC-CDM-FI 的一个子集(n=80),每个条形图上方显示了平均诊断准确率,垂直线表示标准偏差。LLM 的平均表现显著较差(P < 0.001),尤其是在胆囊炎(P < 0.001)和憩室炎(P < 0.001)方面。
图|自主临床决策场景下的诊断准确率。对比全信息提供场景下,模型判断正确率整体都有明显下降。LLM 在诊断阑尾炎时表现最好,但在胆囊炎、憩室炎和胰腺炎这三种病理上表现较差。
2.LLM 的临床决策草率且不安全
研究团队发现,LLM 遵循诊断指南方面表现不佳,容易遗漏患者的重要身体信息。此外在安排患者必要实验室检查方面缺乏一致性。LLM 在解读实验室结果方面也有明显不足。这表明它们在没有充分了解患者病例的情况下草率诊断,对患者健康构成严重风险。
图|LLM 推荐治疗方式评估。期望的治疗方案是根据临床指南和数据集中患者实际接受的治疗确定的。在 808 名患者中,Llama 2 Chat 正确诊断了 603 人。在这 603 名患者中,Llama 2 Chat 在 97.5% 的情况下正确推荐了阑尾切除术。
3.LLM 仍需要大量的医生临床监督
另外,当前所有的 LLM 在遵循基础医学指导方面表现不佳,在每 2-4 个病例中出现错误,且每 2-5 个病例中就会虚构不存在的指导。
图|LLM 在不同数据量下的表现。该研究比较了每个模型在使用所有诊断信息与仅使用单一诊断检查和现病史的表现。对于几乎所有疾病,在 MIMIC-CDM-FI 数据集中,提供所有信息并未导致最佳表现。这表明,LLM 无法集中于关键事实,当提供过多信息时,表现会下降。
该研究还表明,为每个模型提供最佳性能的信息顺序对于每种病理都是不同的,这无疑进一步增大了后续优化模型的难度。在没有广泛的医生监督和事先评估的情况下,无法可靠地完成任务。总的来说,它们在遵循指令、处理信息的顺序以及对相关信息的处理上存在明细缺陷,因此需要大量临床监督以确保其正确运行。
虽然该研究发现了 LLM 在临床诊断下的各种问题,但 LLM 在医学方面的前景依然巨大,很可能更适合根据病史和测试结果做出诊断。研究团队认为,该研究工作在以下两个方面具有进一步拓展的空间:
模型验证和测试:进一步的研究应集中在对 LLM 进行更全面的验证和测试,以确保其在真实临床环境中的有效性。
多学科合作:建议将 AI 专家与临床医生密切合作,以共同开发和优化适用于临床实践的 LLM,并解决实际应用中的问题。
AI 在如何颠覆医疗?
不只是上述研究,来自美国国立卫生研究院(NIH)的团队及其合作者,也发现了类似的问题——在回答 207 个图像挑战问题时,GPT-4V 虽然在选择正确诊断方面得分很高,但在描述医学图像和解释诊断背后的原因方面经常会犯错。
尽管 AI 目前还远不如人类专业医生,但其在医疗行业的研究与应用,一直是国内外科技公司和科研高校竞相角逐的重要“战场”。
例如,谷歌发布的医疗 AI 大模型 Med-PaLM2,具备了强大的诊断和治疗能力,同时也是第一个在 MedQA 测试集中达到“专家”水平的大模型。
清华大学研究团队提出的“智能体医院”(Agent Hospital),可以模拟治疗疾病的整个过程,其核心目标是让医生智能体学会如何在模拟环境中治疗疾病,甚至可以不断从成功和失败的病例中积累经验实现自我进化。
哈佛医学院领衔开发了一个用于人类病理学的视觉语言通用 AI 助手——PathChat,其能够在近 90% 的情况下从活检切片中正确识别疾病,其表现优于 GPT-4V 等目前市面上的通用 AI 模型和专业医疗模型。
图|指令微调数据集和 PathChat 构建
日前,OpenAI CEO Sam Altman 参与成立了一家新公司 Thrive AI Health,旨在借助 AI 技术帮助人们改善日常习惯,降低慢性病死亡率。
他们称,超个性化的 AI 技术可以有效地改善人们的生活习惯,从而预防和管理慢性疾病,减轻医疗经济负担,并提高人们的整体健康水平。
如今,AI 在医疗行业的应用已经从最初的实验阶段逐渐过渡到实际应用阶段,但距离帮助临床医生增强他们的能力、改善临床决策,甚至直接取代,或许依旧有很长的一段路要走。