今天为大家介绍的是来自上海科技大学,上海联影智能,安徽医科大学附属第一医院的一篇论文。乳腺癌机器学习诊断模型可以帮助预测癌症风险并指导后续的患者管理等临床任务。为了使这些模型能够对临床实践产生影响,它们需要遵循标准工作流程,协助解读乳腺X光和超声数据,评估临床上下文信息,处理不完整数据,并在前瞻性环境中得到验证。本文报告了一个多模态模型的开发和测试,该模型利用乳腺X光和超声模块,基于来自多个医疗中心和不同扫描仪制造商的5,025名患者(5,216个乳房的19,360张图像,包括临床元数据、乳腺X线摄影和三模态超声)的手术病理确诊数据,对乳腺癌风险进行分层。与经验丰富的放射科医生相比,该模型在良恶性肿瘤分类方面表现相当,在病理水平的鉴别诊断方面表现更优。在一个前瞻性收集的187名患者191个乳房的数据集中,多模态模型与病理学家对活检乳房标本的初步评估的总体准确率相近(分别为90.1%和92.7%)。多模态模型可能有助于肿瘤学诊断。
乳腺癌是全球最常见的癌症,在2020年首次超过肺癌,也是女性癌症死亡的第二大原因。据报道,全球每年约有230万女性被诊断出乳腺癌,最终导致约68.5万人死亡。由于早期诊断能够显著改善患者的生存率和预后,乳腺X线摄影长期以来被广泛推荐用于筛查和诊断人群。然而,乳腺X线摄影对于乳腺组织致密的女性敏感性较低,因为乳腺极度致密的女性患乳腺癌的风险增加了四倍。超声作为一种低成本且广泛可用的成像工具,被用来显示乳腺X线摄影难以发现的小型乳腺癌,提高了乳腺癌检测的敏感性。具体而言,彩色多普勒(colour Doppler)和弹性成像(elastography imaging)等先进超声技术现已在临床中得到应用,以改善乳腺癌诊断的整体表现,特别是在降低假阳性率方面。因此,利用各自的优势,在实际临床环境中筛查和诊断乳腺病变时,常规采用乳腺X线摄影(MG)和超声(US)的组合互补使用,而不是单独使用乳腺X线摄影或超声。
乳腺X线摄影和/或超声专业人员短缺、影像发现的主观特征描述,以及持续存在的观察者内部和观察者之间的差异仍然是其局限性。漏诊癌症会延误及时手术和治疗,而假阳性则可能导致患者焦虑和不必要的侵入性操作。因此,迫切需要一种有效的技术来协助临床医生及时诊断,并将患者转诊至适当的临床护理。
随着人工智能(AI)的不断发展,基于AI的方法可能具有独特的优势来应对这一挑战。十多年前,机器学习方法就被用于多个临床决策支持问题,包括协助放射科医生解读乳腺X线摄影和乳腺超声。最近深度学习技术的突破使算法能够基于影像本身学习适当的预测特征,这在医疗AI领域掀起了新的革命。值得注意的是,研究表明深度学习提高了医学图像分析的效率和可重复性,其敏感性和特异性与委员会认证的医学专家的诊读相当。为了在医疗保健中提供更先进和智能的问题解决方案,已经开发出了整合包括基因、影像、临床和文本数据在内的多模态数据的多模态AI模型,与单模态AI模型相比,这些模型在临床转化方面显示出巨大潜力,促进了人机之间的自然交互。
关于乳腺疾病,现有的AI研究已经证实了将深度学习应用于乳腺X线摄影或乳腺超声的可行性,这些单一模态都表现出令人印象深刻的独立性能。尽管这些单模态模型初期很有希望,但由于三个关键挑战1)先前AI研究的设计偏离了既定的诊断标准;2)大多数先前的AI研究既没有在前瞻性研究中跨不同医疗中心和扫描仪制造商进行测试,也没有考虑现实场景中缺失或不完整数据的影响;3)以前的AI研究主要集中在区分良性或恶性肿块上,未能提供有助于后续最优管理的乳腺疾病鉴别诊断,因此该技术的临床应用仍然受限。
模型部分
作者提出的乳腺乳房X线超声网络BMU-Net模型如图1所示。BMU-Net模型严格遵循BI-RADS指南中描述的临床标准,同时结合了乳房X线和乳腺超声的各自优势。通过乳房X线模块获取整体乳房的全局特征,通过超声模块获取最可疑乳腺病变的局部特征,这些特征被并行提取,随后通过transformer模块进行处理,并在后期融合临床上下文信息。基于以往的研究,作者选择了ResNet-18作为最高效的特征提取框架。
图 1
为了高效构建BMU-Net模型,作者首先使用独立的乳房X线和超声图像数据集分别训练两个模块(乳房X线模块和超声模块),从而得到了专门用于提取模态特定特征的鲁棒图像编码器。随后,作者利用多模态数据集对BMU-Net模型进行微调,使用预训练的乳房X线和超声模块权重初始化图像编码器的权重,同时随机初始化表格编码器的权重。详细的患者人口统计学特征和乳腺病变特征总结在表1中,包括患者纳入和排除标准的数据使用流程图显示在扩展数据图1中。
表 1
通过开发一个将单个乳腺疾病映射到不同训练类别的树状分类法,作者实现了一个能够提供多层次乳腺癌风险预测的人工智能系统。具体来说,该人工智能系统直接在精细疾病划分上进行训练,使用乳腺疾病树的第二层节点作为五个训练类别(T1-T5)。因此,该系统可以自然地输出T1到T5的概率分布,有助于为活检偏好和后续管理提供信息化决策。为了恢复高度概括的乳腺疾病类别(即乳腺疾病树的第一层节点,包含良性或恶性两个类别)的概率以进行粗粒度评估,作者实现了一个推理算法,该算法将精细训练节点的概率作为其后代进行求和,无需重新训练模型。
乳腺X线模块性能及其与乳腺X光摄影机的比较
MG_H1数据集中的患者被随机分配到三个队列中的一个:训练队列(70%)、验证队列(10%)和内部测试队列(20%)。乳房X线模块使用乳房X线图像的CC和MLO视图以及经手术病理确认的五个T1-T5训练标签进行训练。在模型评估之前,作者首先证明了使用乳腺疾病树方法的优势。为实现这一目标,作者使用推理算法(即恶性概率=P_T3+P_T4+P_T5)从乳房X线模块生成恶性概率得分,而无需重新训练模块,并从直接使用二元标签训练的重建模块中生成恶性概率得分。通过推理算法在更精细的疾病划分上训练的模块获得了受试者工作特征(ROC)曲线下面积(AUC)为0.825(95%置信区间:0.759-0.890),这优于直接在二元类别上训练的模块的AUC 0.811(95%置信区间:0.744-0.877)。
作者使用两种方法评估乳房X线模块的性能。在第一种方法中,作者在内部测试队列中与五位经验丰富的乳房X线医师(即平均有10年经验的乳房X线专科放射科医师)进行了两部分的乳房X线阅片研究。在阅片研究第一部分中,要求读片医师从T1、T2、T3、T4或T5中强制选择一个预测结果,计算混淆矩阵(图2和扩展数据图2),然后使用Cohen线性加权kappa值比较其与乳房X线模块的一致性水平。如表2所示,乳房X线模块获得的Cohen’s kappa值为0.398(95%置信区间:0.291-0.505),优于所有乳房X线医师的值。
图 2
表 2
在阅片研究第二部分中,不是进行精细的鉴别诊断,而是要求读片医师按照临床实践中的解释报告BI-RADS评级。作者在四个临界点测量了读片医师的准确度、灵敏度、特异度和F1分数,这些临界点分别对应于BI-RADS 3-对4a+、BI-RADS 4a-对4b+、BI-RADS 4b-对4c+和BI-RADS 4c-对5。观察发现五位读片医师的评估结果位于乳房X线模块的ROC曲线下方(图3a),表明乳房X线模块在某种程度上具有优越性能。为进一步评估模块在各个BI-RADS类别上的性能,扩展数据图3和4分别展示了原始乳房X线数据集中BI-RADS 4和BI-RADS 5病例子集的粗粒度评估结果。值得注意的是,在最具挑战性的BI-RADS 4类别上,乳房X线模块的性能明显超过了读片医师的平均表现,这种优势比使用包含组合BI-RADS类别的完整乳房X线数据集时更为显著。
图 3
在第二种方法中,作者通过多个医疗中心和扫描仪制造商来加强外部泛化能力。因此,作者回顾性收集了三个乳房X线数据集作为外部测试队列,即MG_H2(501名患者的518个乳房)、MG_H3(761名患者的783个乳房)和MG_Hx(1,228名患者的1,232个乳房,仅癌症人群)。图3b和扩展数据图5分别展示了通过ROC曲线进行的粗粒度预测性能和通过混淆矩阵进行的精细化预测性能。在使用统一扫描仪的MG_H2数据集上,获得了0.794的AUC值(95%置信区间:0.756-0.833)。在使用不同扫描仪配置的MG_H3数据集上,获得了0.812的AUC值(95%置信区间:0.781-0.843)。这些结果与MG_H1内部测试队列的性能一致,显示了乳房X线模块良好的可扩展性。
作者基于临床意义为乳房X线模块设置了三个工作点(operating points)。第一个工作点是Youden指数,这在医学研究中被广泛用于通过平衡灵敏度和特异度来确定最佳模型性能。第二个工作点被调整为在MG_H1内部测试队列中,使其在BI-RADS 3-对4a+的临界点(即临床实践中活检建议的临界点)处与读片医师的平均特异度相匹配。作者发现乳房X线模块的假阴性率为13.2%,显著低于读片医师29.9%的平均水平(P<0.05)。为了避免模拟阅片环境或放射科医师在BI-RADS评级中的变异性导致的主观评估,第三个工作点使用活检建议的原始定义生成,即传统的2%阈值。结果显示,乳房X线模块在MG_H1+MG_H2+MG_H3组合测试队列中达到了99.7%的灵敏度,在仅癌症的MG_Hx队列中达到了99.8%的灵敏度,这些都表明在潜在的临床场景中,乳房X线模块很少漏诊癌症。
超声模块性能及其与超声医师的比较
与常规进行CC和MLO视图扫描的乳房X线不同,三模态超声图像在临床实践中可能无法得到完整保存(弹性成像可能缺失),在某些情况下相应的视图描述也没有明确标注。因此,超声研究中的所有患者都是按照预定义的超声扫描方案前瞻性招募的,并保存了六张标准超声图像(B型、彩色多普勒和弹性成像的横切面和纵切面视图)。在超声模块开发中,US_H1M1数据集的患者按时间顺序分配策略被分为三个队列:训练队列(70%)、验证队列(10%)和内部测试队列(20%)。超声模块使用全部六张超声图像和经手术病理确认的五个T1-T5训练标签进行训练。
作者以与之前乳房X线模块相同的方式评估了超声模块的性能。具体来说,在两部分超声读片研究中,四位超声专家(即平均有15年经验的超声专科放射科医师)参与了US_H1M1的内部测试队列评估。在精细化预测任务中,如表2所示,超声模块获得了0.571的Cohen’s kappa值(95%置信区间:0.476-0.666),优于所有有经验的超声医师。对于高度概括的粗粒度疾病预测,作者观察到四位读片医师的评估结果略低于图3c中超声模块的ROC曲线,表明作者的超声模块具有不劣的性能。扩展数据图3和4分别展示了原始超声数据集中BI-RADS 4和BI-RADS 5病例子集的粗粒度预测结果。
与乳房X线模块类似,作者将超声模块的工作点设置为Youden指数以获得最佳模型性能。对于超声模块的活检建议,在读片研究中BI-RADS 3-对4a+的临界点下,假阴性率为4.8%,而读片医师的平均水平为2.0%。在临床设置中使用传统的2%阈值时,超声模块实现了几乎不存在的假阴性率,反映了其在准确识别乳腺癌病例方面具有很高的灵敏度。
BMU-Net模型性能及其与病例学家的比较
尽管乳腺X线和超声模块在医学图像判读方面已经显示出可以达到甚至超越经验丰富的放射科医生的水平,但本研究的最终目标是帮助临床医生做出更好的临床决策,例如选择最佳的活检方案、手术或治疗方案等。具体来说,对于可疑的乳腺病变,应该建议进行真空辅助活检(VAB)还是空心针活检(CNB),或者对于恶性乳腺肿瘤,应该进行保乳手术(BCS)还是乳房切除术。换句话说,潜在的病理类别建议在临床工作流程和患者护理中特别有用。因此,作者提出了一个统一的BMU-Net模型,该模型整合了乳腺X线、三模态超声和额外的临床上下文信息,以实现更高水平的初步病理医师级别评估。
作者首先展示了将各模态特定图像编码器的权重分别从乳腺X线和超声模块转移到BMU-Net模型开发中的优势。在MGUS_H1内部测试队列中,随机权重初始化的整体精确度为35.1%,而在精细预测中使用ImageNet预训练权重的精确度为46.1%。在粗粒度预测中,AUC值分别为0.807(95%置信区间:0.743-0.870)和0.916(95%置信区间:0.875-0.956)。相比之下,从预训练的乳腺X线和超声模块转移的权重显著提高了双模态BMU-Net(同时输入乳腺X线和超声图像)的性能,精细预测精确度提高到53.4%(P < 0.05),AUC值达到0.945(95%置信区间:0.914-0.977,P < 0.05),这表明在多模态医学AI模型开发中,模态特定的预训练权重非常重要。
临床元数据使医生能够在适当的临床背景下解释潜在的发现,有助于进行更全面的鉴别诊断并优化患者预后。为了增强临床相关的决策制定,作者将上下文信息整合到BMU-Net模型的开发中。通过添加非图像元数据,多模态BMU-Net模型最终在内部测试队列中达到了最先进的性能,在精细粒度上达到0.643的Cohen’s kappa值(95%置信区间:0.562-0.724,P < 0.05),在粗粒度分辨率上达到0.948的AUC值(95%置信区间:0.916-0.980)。作者还在来自不同医疗中心的外部MGUS_H2测试队列(59名患者的62个乳房)上进一步评估了BMU-Net模型的泛化能力。如扩展数据图7所示,多模态BMU-Net模型获得了0.643的Cohen’s kappa值(95%置信区间:0.491-0.796)和0.942的AUC值(95%置信区间:0.880-1),表明作者的BMU-Net模型具有良好的可靠性。
在实际临床实践中经常会遇到不完整的多模态数据。如图4所示,作者不仅在微调阶段通过随机掩码策略解决了缺失模态的问题,还在测试阶段严格评估了BMU-Net在面对缺失数据时的表现。
图 4
作为最基础和具体的任务,作者发现单模态BMU-Net模型(仅输入乳腺X线或超声图像)在MG_H1测试队列中达到了与乳腺X线模块相同的性能水平,在US_H1M1测试队列中达到了与超声模块相同的性能水平,这证明了作者的多模态融合策略的有效性。在MGUS_H1内部测试队列中,观察到多模态BMU-Net与双模态BMU-Net相比,在精细预测方面取得了显著改善(P < 0.05),在粗粒度表现上略有提高。换句话说,临床变量的引入在精细评估方面比粗粒度评估更具优势,这表明临床元数据在鉴别诊断方面比一般的二元疾病分类具有潜在优势。与图像数据相比,由于患者在临床环境中的依从性问题,非图像临床变量更容易缺失。因此,作者进一步研究了单个临床变量(补充表7)和临床变量组(补充表8)对多模态BMU-Net模型整体性能的影响。结果显示,年龄(P < 0.05)、BMI(P < 0.05)和病变大小是本研究中最重要的三个关键组成部分,随着缺失的临床变量数量增加,BMU-Net模型的性能会下降。
为了研究BMU-Net模型在初步病理医师级别评估中的潜在价值,作者在同一个MGUS_H1内部测试队列中与三位经验丰富的病理学家进行了乳腺活检标本观察研究,如图2c所示。值得注意的是,病理学家的观察是基于活检标本的一小部分,即临床实践中的初步病理记录(见方法部分)。根据多数投票标准,病理学家在精细预测中获得了0.785的Cohen’s kappa值(95%置信区间:0.727-0.843),在粗粒度评估中总体准确率达到92.7%。相比之下,作者的多模态BMU-Net模型在粗粒度评估中达到了90.1%的准确率,接近初步病理评估的性能水平。
版权声明
本文为本站原创内容,转载需注明文章来源(https://www.eiefun.com),另:文中部分素材可能会引用自其他平台,如有侵权或其它,请联系 admin@eiefun.com,我们会第一时间配合删除