《黄帝内经》中提到的“上医治未病”这一千年古训,阐明了这样一个至关重要的道理:最卓越的医术在于对疾病进程的预先判断。
香港科技大学(广州)携手约翰霍普金斯大学等机构的研究团队,共同推出了首个医学领域的全球模型——Medical World Model,简称MeWM。该模型首次赋予人工智能“预演”疾病发展趋势的功能,借助生成式模型对多种治疗方案下肿瘤的演变进行模拟,为临床决策提供了直观的可视化支持,并将“治未病”的医学理念成功转化为先进的算法技术。
该研究论文的地址为:https://arxiv.org/pdf/2506.02327,请点击链接查阅详细内容。
该代码仓库地址为:https://github.com/scott-yjyang/MeWM,您可以在其中找到相关资源。
项目访问地址:https://yijun-yang.github.io/MeWM,请点击此处进入。
Hugging Face平台上的链接为:https://huggingface.co/papers/2506.02327。
该项目提出三个核心贡献:
肿瘤演变模拟器,通过三维扩散模型对多种治疗方案下肿瘤形态的变化进行模拟,并在视觉图灵测试中展现出卓越的表现。
对生存风险进行预测:运用生存分析模型对治疗方案实施后的患者预后生存风险进行预估,借助逆动力学原理推导出最佳治疗方案,所制定方案的准确性显著高于传统多模态大型模型。
临床决策流程闭环,旨在打造一个自动化、可视化的优化循环,该循环包括「方案制定、模拟推演、生存评估」三个环节,且具备广泛适用性,特别适用于癌症介入治疗方案的规划。
该论文的首位作者是杨逸君,其余合作者阵容强大,涵盖计算机视觉领域的先驱Alan Yuille以及美国工程院院士Rama Chellappa,而负责通讯的则是朱磊和陈杰能两位学者。
什么是医学世界模型?
MeWM采纳了世界模型(WM)的核心理念,并确立了“观察、模拟、评估、优化”这一环环相扣的运行轨迹。
模型以影像作为观察的依据,首先由感知模块构建初始状态,接着进展预测模型依据不同的干预措施预测未来的状态,生存评估的结果随后反馈给策略模块,进而产生旨在恢复的动作,这些动作又会对后续的观察和模拟产生影响,从而形成一个优化临床决策的闭环系统。
图1展示了医学世界模型的工作原理,它以医学影像作为输入数据,通过感知模块来构建初始的病情状况。随后,疾病进展生成式模型将预测出在多种治疗条件下的未来病情走向。依据预期的恢复情况,模型生成相应的策略来指导治疗决策,并形成闭环反馈机制。这一机制通过逆向建模和生存分析,持续对干预路径进行优化。
在癌症介入治疗中构建「模拟-评估-优化」
MeWM在肝癌TACE治疗方案的探索上,成功构建了一个包含策略制定、动态仿真以及风险预判的“过去、现在、未来”连贯闭环系统。
策略模型(Policy Model)将基于CT扫描结果及治疗目标的语言描述,运用VLM(例如GPT-4o)技术,生成符合临床规范的潜在治疗方案,这些方案涵盖多种药物与栓塞材料的组合。在初期阶段,模型将同时生成B个治疗方案(即protocol beams),这些方案覆盖了多样化的策略范围。
紧接着,针对每一个候选方案,动态模型将运用3D条件扩散模型来模拟治疗后的肿瘤形态,并逐步形成方案的实施路径。随后,每一组经过模拟的术后肿瘤候选方案,都将被提交给启发式函数进行评估。
逆动态模型对每一步中所有肿瘤图像候选者进行生存风险评估,通过启发式函数计算风险分数,并实时更新,淘汰风险等级最高的beam方案,以此确保低风险方案得到优先保留,并对高风险方案进行持续优化。
最终,在探索的全过程中,我们筛选出了风险最低的治疗组合,并将其作为推荐方案予以输出。这一过程实现了从个体影像出发,并融合了多步生成与评估的个性化治疗策略搜索流程。
图2展示了MeWM系统,该系统依据术前CT扫描结果,综合治疗目标,生成了多套TACE治疗方案,这些方案包含了多种化疗药物和栓塞材料。每套方案都通过构建模型来预测患者术后的肿瘤反应,同时,生存评估模块会计算出相应的风险分数。最终,系统会筛选出最为理想的干预方案。这一流程在模拟真实肝癌治疗场景中,能够实现针对个体的、基于数据的治疗决策。
动作驱动的生成模型训练流程
MeWM独具匠心,将“治疗行为”设定为条件,以此操控生成过程,并模拟了肿瘤在多种组合条件下的真实演化表现。
从放疗记录提取结构化治疗动作;
将术前影像与动作融合输入3D扩散模型,生成术后图像;
通过对比学习提升组合间的区分度与生成的一致性。
在医生图灵测试中,MeWM生成的合成图像被错误地判定为真实图像的频率最高,这一比例达到了79%,显著超过了其他现有技术。此外,其结构保真性评估指标,包括FID和LPIPS,也表现出了领先水平。
图3展示了肿瘤生成式模型的核心部分,它由三个主要步骤构成:首先,进行放疗报告的解读和动作指令的生成,这一步骤由GPT-4o和Deepseek-R1共同完成,它们负责提取药物和栓塞材料的相关信息,并据此构建出治疗方案;其次,在手术完成后,将生成的动作指令与术前CT图像进行融合,并输入扩散模型,从而生成手术后的肿瘤图像;最后,通过组合对比学习(CCL)技术,该模型能够拉近相似方案之间的距离,同时区分不同方案,以此提高模型生成结果的真实现象和动作的一致性。
MeWM如何刷新治疗规划性能
为了全面检验MeWM在治疗决策优化任务中的实际效果,该研究团队在多个私有以及公开的数据集上实施了周密的实验研究。
实验起初借助视觉图灵测试对生成式模型在模拟肿瘤预后形态方面的真实性进行了验证,接着又对生存分析模型依据术前术后图像预测生存风险的能力进行了准确性评估。
最终对机制在TACE治疗方案选择方面的精确度进行了验证,同时与多种多模态大型模型进行了比较,并确认了各个模块的功效。
核心结果
术后肿瘤生成效果
在真实性评估过程中,MeWM接受了由三位放射科医生共同参与的“图灵测试”。此次研究准备了240份CT图像,其中一半是真实的术后图像,另一半则是通过不同模型合成的。
医生在不知情的前提下,需对每张图像进行真伪鉴定,其依据在于图像中是否显现出典型的术后征兆,例如碘油沉积、坏死区域与存活组织的混合表现。
结果显示,三位医生在识别真实图像的能力上表现相当稳定,然而在识别合成图像时,他们之间的差异却十分明显。具体来说,MeWM生成的图像被错误地判断为真实的概率最高,其specificity分别为79%、71%和75%,这一数据远超其他方法,充分表明MeWM的合成图像在外观上与真实术后肿瘤最为相似。
MeWM在生成质量方面同样表现出色,FID和LPIPS两项指标均位居所有方法之最,这进一步彰显了其生成的肿瘤图像在结构细节和视觉真实度上的卓越表现。
可靠的启发式函数
在生存风险评估领域,相较于传统的Cox比例风险模型,MeWM的启发式模型表现出了更为显著的准确性。
依据公开的数据集进行实验,结果显示Cox模型在区分高低风险样本方面存在困难,其预测结果显得过于平缓,均方误差达到了0.3550;相对而言,MeWM模型则更接近于实际分布,均方误差降低至0.2142。
Kaplan-Meier分析进一步揭示,MeWM在风险分层方面展现出更强大的能力,其C-Index值提升至0.752,这一指标明显超过了由影像组学特征驱动的Cox模型。
研究结果显示,MeWM在术前和术后影像中能够准确识别风险点的变化,这为治疗效果的评价提供了更加坚实可靠的依据。
革命性的临床辅助决策能力
在TACE治疗方案的研究过程中,MeWM技术显示出卓越的性能优势。
在私有数据集测试中,该模型的F1-score成绩达到了52.38%,这一成绩比GPT-4o、Claude-3.7和MedGPT等众多多模态大型模型高出超过10个百分点;而在公开数据集的测试中,F1-score成绩更是达到了64.08%,几乎与专业放射科医生的71.43%水平相当,并且在Jaccard系数、精确率和召回率等关键性能指标上,也全面超越了其他多模态大型模型。
不同于那些仅通过视觉信息进行推理的模型,MeWM模型通过分析生成的术后CT图像来进行生存分析评分,构建了一个包括“治疗模拟”、“效果评估”以及“方案筛选”在内的完整闭环机制,从而使得模型能够更精确地识别出不同治疗方案之间可能存在的疗效差异。
更进一步,将MeWM整合至医生的诊疗决策过程中,能够平均提升F1-score达13%,有效协助医生在手术前对治疗效果进行精准预判,并对用药方案及栓塞材料的选用进行优化。此外,该系统在众多实际病例中的推荐结果与专家意见高度契合,充分展示了其在临床辅助决策领域的实际应用价值。
结语:让AI成为医生的「时间旅行者」
MeWM不仅具备预测治疗效果的能力,而且还能基于对未来的预测对当前的治疗方案进行优化调整。
这不仅是医学领域中生成模型的一项重大创新,而且还是全球范围内模型在临床决策方面的一次开创性应用。
在不久的将来,MeWM有望成为医生的辅助阅读者,以及手术前规划的智能顾问,助力临床治疗从依赖经验向依托数据、模拟预演的崭新阶段迈进。
Medical World Model的问世,标志着医学领域世界模型的一次重大突破,为精准医疗的研究带来了可视化、量化和优化的新视角。
参考资料:
该链接指向的论文禁止对专有名词进行修改,且要求在改写过程中避免使用原文中已出现的词汇,同时需保持原文的风格。在改写时,可以将较长的句子拆分成若干个较短的分句,并用逗号进行分隔。在改写过程中,应确保不遗漏任何句尾的标点符号。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://www.mjgaz.cn/fenxiang/276052.html