基于美日627例患者的临床数据，谷歌证实 AI 辅助肺癌筛查的群体有效性-

2024 年 2 月，国家癌症中心基于肿瘤登记及随访监测最新数据，形成了《2022年中国癌症发病率和死亡率》报告。报告显示，在我国，肺癌仍是恶性肿瘤发病和死亡的首位原因。尽管医学界对于肺癌的关注度与日俱增，但在肺癌诊疗领域仍存在大量诊断延误、过度治疗等临床难题。在过去的十年中，由于算法的改进、计算能力的增加、可用数据的扩展和应用范围大幅增长，AI 正以前所未有的成长速度引领科技发展方向。

作为在 AI 研发领域最为前沿的世界级科技巨头之一，谷歌在 AI 与医学应用的研究方面成就颇丰。近期，谷歌研究中心的软件工程师 Atilla Kiraly 和产品经理 Rory Pilgrim 研究了机器学习模型如何有效地将研究结果传达给放射科医生，评估了广义人工智能辅助系统在特定工作流程环境、设备和国家特定指南和评分/管理协议下对肺癌筛查 (LCS) 工作流程的影响。研究论文已经发表于《Radiology AI》期刊。

研究亮点：

* 开发并优化了人工智能辅助肺癌筛查的工作流程，并在美国和日本进行测试

* 人工智能辅助下，可将特异性提高 5%-7%，而敏感性没有明显下降

* 人工智能辅助下，平均每位病例筛查时间可减少 14 秒，并且大大增强了医生的诊断信心

研究范围：人工智能辅助筛查，美国和日本的回顾性跨国研究

该研究共使用了 5 个独立的数据集 (DS_CA, DS_NLST, DS_US, DS_JPN)，分析了美国和日本合计 627 例（含 141 例癌症阳性）低剂量胸部 CT 病例。其中，美国的研究涉及 330 例患者，包含 191 名男性和 139 名女性，年龄中位数为 63 岁。日本的研究涉及 297 例患者，包含 217 名男性和 80 名女性，年龄中位数为 58 岁。阳性病例被定义为在两年内通过病理确诊肺癌，阴性病例被定义为至少两年内没有任何确诊癌症的诊断。

最终设计与读者研究概览

同时，该研究还邀请到了 6 位获得美国委员会认证的胸科放射科医生，以及 6 位具有阅读 CT 胸部检查经验的日本委员会认证放射科医生。在研究中，所有病例的 CT 分别由 12 名医生在有人工智能辅助和无人工智能辅助的情况下，各审阅 1 次，共计获得了 7,254 次解释。对于特定国家的评分系统，来自美国的放射科医生采用美国放射学会指南中的肺-rads 评分 (1.1 版)，来自日本的医生采用仙台评分系统。

在 141 例癌症阳性病例中，美国和日本分别有 124 例和 17 例。其中，美国阳性病例的结节情况显示，共有实性结节 69 例 (56%)，部分实性结节 15 例 (12%)，非实性结节 20 例 (15%)，未分类结节 29 例 (23%)。

类似地，日本的阳性病例中有 6 例 (35%) 为实性结节、6 例 (35%) 为部分实性结节、5 例 (29%) 为非实性结节。在癌症阴性病例中，同样也选取了具备不同大小的结节的数量，使有既往病例的比例与癌症病例的比例相匹配。

模型分析：基于现有模型改进，大幅提升统计分析能力
该研究的第一步是通过额外的训练数据和架构来改进之前开发的机器学习模型。

肺癌辅助筛查系统由 13 个模型组成，这些模型相互协调，首先会对肺部进行分割，获得总体评估，定位 3 个可疑区域。然后，使用该信息为每个区域分配可疑评级。该系统使用了部署在 Google Cloud 上的 Google Kubernetes Engine (GKE) 引擎提取图像、运行机器学习模型并提供结果。

简单来讲，系统的输出提供怀疑 (suspicion) 评级和 ROI (Region of Interest），供医生结合所在地区的评分指南进行判定。

人工智能辅助筛查系统

第二步，研究人员使用 DS_CA、DS_US、DS_NLST 这 3 个数据集来开发和训练模型。

训练集：

* DS_CA 是来自加拿大医院系统的数据，该数据集由 2010 年至 2017 年间的诊断性 CT 检查组成，用于训练最终分类模型。

* DS_US 患者的非筛查 CT 被用来进行额外训练。

* DS_NLST 由 26,722 名患者数据组成，对患者水平进行随机分割所得到的子集被用于开发 AI 系统。

测试集：

* 第一个测试数据集是DS_NLST 总病例随机分割的 15%。

* 第二个测试数据集筛选了来自 DS_US 的 CT 病例，该数据集来自美国伊利诺伊州的一家医院系统，从 5,055 名患者中分离出 1,1792 例未识别的病例。

* 第三个数据集 DS_JPN 来自日本仙台 Kousei 医院，由 2006-2018 年间接受 LDCT 筛查的 301 名患者组成。

为了提高人工智能系统在早期发现癌症的能力，该研究纳入了在诊断前长达两年的癌症阳性病例 cancer_in_2。在 cancer_in_2 中，所有阴性病例至少进行了两年的随访，以确保没有癌症确诊病例，阳性病例均为 2 年内影像学诊断出的病例。

该研究的主要目标是，通过整合医生们对癌症的怀疑程度 (LoS) 评分，该研究扫描所有可能的数值阈值来计算灵敏度和特异性，得出了 LoS 的接收器工作特性曲线，并计算得出了 AUC。次要目标则是，探索医生使用当地评分系统和病例管理决策阈值的敏感性/特异性，这些都是基于紧急程度的二值化阈值进行计算。

例如，「6 个月随访 CT」被认为比「3 个月随访 CT」更不紧急，而「3 个月随访 CT」又比「疑似恶性肿瘤」更不紧急。类似的，该研究也对评分系统反应和 AI 系统反应进行了相同的分析，并用 ORH 分析比较 AUC 差异。

在结果中，p 值 < 0.05 表示 AUC 差异比较具有统计学意义，p值 < 0.0125 或 < 0.01 分别表示经 Bonferroni 校正后具有统计学意义。

研究结果：AI 确实有效，但仍然可能错过病变
在美国和日本的研究中，相对于无辅助方式，人工智能辅助提高了评分系统和病例管理选项中所有医生的敏感性。其中，美国和日本病例的研究显示 LoS 和 AUC 均改善了 0.023，人工智能辅助在所有 Lung-RADS 评分中都获得了更高的敏感性和特异性。

美国(左)和日本(右)的病例在有和没有人工智能帮助的情况下的表现

在 AI 辅助下，所有病例管理类别的敏感性和特异性评分都更高，美国病例和日本病例的 AI 辅助特异性分别提高了 5.5% 和 6.7%，但阳性筛查中的活检建议特异性下降了 1.1%。

该研究还重点对美国国家肺癌筛查实验中的患者群体进行分析，结果显示特异性仍然提高了 3.4%。日本病例的研究结果还表明，在有人工智能辅助的情况下，平均每位病例筛查可减少 14 秒的时间，并且大大增强了医生的诊断信心。

日本医生在有无人工智能辅助下的筛查时间

在辅助定位方面，AI 系统在美国和日本的研究中分别标记了 89% 和 75% 的癌症病例最应关注的结节，但在其他案例中 AI 可能会遗漏掉一些最应关注的结节。

例如，在一个案例中，医生将病例标记为可疑，而 AI 系统标记为阴性，通过进一步比较，识别出了较小的亚实性结节，这些结节在至少两年的阴性随访中没有被诊断为癌症；在进一步的放射科医生审查中，它们似乎可被认证为微创腺癌，正在进行进一步观察。

总之，该系统在两个国家、PACS 系统和患者群体的回顾性研究中证明了有效性，因为在 AI 辅助下解释具有挑战性的肺癌筛查病例时减少了不必要的随访，并有可能减少随访成像的过度使用、避免频繁进行肺活检，并减少卫生保健系统的负担。

团队接棒，谷歌的肺癌研究持之以恒

事实上，谷歌对于肺癌的研究由来已久。

早在 2019 年 5 月 7 日，谷歌就曾在 2019 年开发者大会上宣布，其研发的人工智能技术可以比医生早一年查出肺癌，使患者存活的概率提升 40%，谷歌还将致力于将这些技术转化为实际的医疗解决方案，以改善肺癌患者的治疗和预后过程。

仅仅在 2019 年开发者大会落幕十多天后，Google AI 的研究人员 Daniel Tse 又与斯坦福、纽约大学等机构的研究人员合作，在 Nature Medicine 杂志上发布了他们最新设计的深度学习模型，测试表明，该 AI 程序判断人类患病情况的准确率高达到 94%，比一同参与测试的 6 名放射科医生表现更好，而这些人类医生已经有 8 年左右的临床经验。

此后，谷歌对于肺癌的探索并未止步。基于对上述机器学习模型的不断开发，谷歌如今终于在多国家、多专家、多病患的情况下进一步验证了模型的有效性。而这，或许也意味着人工智能在肺癌领域的实际应用速度也将加快，不远的将来也将真正造福人类。