2026年6月22日消息:

Nature | 面向疾病管理的对话式人工智能

最新高纬度讯息,请点击下图围观:

0

分享至

用微信扫码二维码

分享至好友和朋友圈

来源:市场资讯

(来源:DrugAI)

DRUGONE

尽管大型语言模型已经在诊断性对话中展现出潜力,但其在有效疾病管理推理方面的能力仍缺乏充分探索。疾病管理不仅包括判断疾病进展,还包括评估治疗反应、制定随访策略,以及安全、准确地进行药物处方。研究人员在此前AMIE系统诊断能力的基础上,进一步开发了一种基于大型语言模型的智能体系统,使其能够处理多次就诊场景中的临床管理与医患对话。

为了让推理过程建立在权威医学知识之上,AMIE利用Gemini的长上下文能力,将上下文内检索与结构化推理相结合,使输出结果能够与最新临床实践指南和药物处方集保持一致。研究人员开展了一项随机、盲法、虚拟客观结构化临床考试研究,将AMIE与21名初级保健医生进行比较。评估覆盖100个多次就诊病例场景,这些场景根据英国NICE指南和BMJ Best Practice指南设计。

结果显示,在专科医生评估的疾病管理推理方面,AMIE不劣于初级保健医生;在治疗和检查建议的精确性、与临床指南的一致性以及基于指南的论证方面,AMIE表现更好。为了进一步评估药物推理能力,研究人员还构建了RxQA,这是一个来自美国和英国两个国家药物处方集的多项选择题基准,并由认证药师验证。虽然AMIE和初级保健医生在能够访问外部药物信息时均有提升,但在难度较高的问题上,AMIE的表现优于初级保健医生。研究人员强调,在真实临床应用之前仍需要进一步研究,但AMIE在多项评估中的表现标志着对话式人工智能向疾病管理工具迈出了重要一步。

近年来,大型语言模型在临床应用中展现出快速进展。已有研究表明,当给定整理好的患者信息时,这类模型能够生成较准确的鉴别诊断;一些基于大型语言模型的人工智能系统还能够通过自然、具有同理心的对话主动采集病史,并在交流过程中建立患者信任。这一过程可被称为临床病史采集与诊断推理,是临床照护的重要基础,但并不足以构成完整医疗服务。

在真实医疗场景中,医生不仅要询问病史和提出诊断,还需要为患者选择合适的检查,制定可接受的治疗与随访计划,并在患者偏好、医疗资源限制和系统约束之间做出平衡。医生还必须考虑疾病随时间的演变、治疗反应、不良反应、复诊间隔,以及是否需要采取观察等待、治疗调整或转诊升级等策略。这种认知过程被称为疾病管理推理,它需要综合临床指南、不断更新的医学证据以及患者个体化情境。

与诊断推理相比,疾病管理推理的评估更困难。诊断通常可以围绕正确或错误的疾病标签建立较明确的评价标准,而疾病管理往往具有很强的情境特异性。面对同一个患者,即使两名医生掌握完全相同的信息,也可能因为患者价值观、医疗环境、资源可及性和个人临床经验不同而制定不同但合理的管理方案。因此,疾病管理并不总是存在唯一正确答案。

目前,医学教育中评估管理能力的常用方式是客观结构化临床考试,即让受训者与标准化患者交流,并根据标准化评分表进行评估。此前针对大型语言模型管理推理能力的研究相对较少,而且多基于静态、非对话的任务。研究人员因此希望扩展AMIE的能力,使其不仅能进行诊断性对话,还能在多个就诊时间点中进行纵向疾病管理、药物推理、检查决策和指南驱动的治疗规划。


图1|研究贡献概览。

方法

研究人员将AMIE优化为一种可在同步文本聊天中与患者进行实时交流、并跨多次就诊维持疾病管理连续性的对话式人工智能系统。为了兼顾快速对话响应与深入临床推理,系统采用双智能体设计:对话智能体负责以较低延迟进行自然、同理心式的患者交流,并维护跨就诊的对话状态;管理推理智能体则负责更慢、更深入的疾病管理规划,持续分析患者病情、检索和整合权威临床指南,并生成结构化管理计划。对话智能体会调用管理推理智能体提供最新计划,并据此指导与患者的互动。研究人员使用模拟医患对话、医学问答、电子健康记录摘要和真实医学对话等数据对模型进行后训练,并通过人类反馈和人工智能反馈进一步强化其对话与疾病管理能力。管理推理智能体利用长上下文能力,在一次推理中同时处理患者跨多次就诊的信息和多份完整指南文档,并在结构化输出约束下生成包含检查、治疗、随访和指南依据的管理方案。系统在随机、盲法、多次就诊虚拟临床考试中接受评估:100个病例场景覆盖心脏病学、呼吸病学、妇产/泌尿、胃肠病学、神经/肌肉骨骼等专科,每个场景包含三次就诊,AMIE和初级保健医生均与标准化患者通过同步文本聊天完成咨询。每次就诊后,AMIE和医生提交诊断、适用指南和管理计划,随后由患者演员和专科医生从管理质量、指南一致性、沟通能力和疾病管理推理特征等多个维度进行盲法评价。研究人员还构建了RxQA药物推理基准,用于测试AMIE和医生在药物适应证、禁忌证、剂量、相互作用和处方安全等方面的知识检索与推理能力。


图2|结构化约束下的推理与计划生成。


图3|随机研究设计概览。

结果

管理计划质量

专科医生对100个多次就诊场景中的管理计划进行了三重评分。评价维度分为三大类:整体管理计划质量、检查建议质量和治疗建议质量。每一类均包含多个评价轴,其中部分评价轴专门关注临床指南的选择、遵循和引用情况。

在所有15个评价轴和三次就诊中,AMIE的管理计划评分至少与初级保健医生相当。在整体计划适当性方面,AMIE在三次就诊中均显著优于初级保健医生。第一次就诊中,AMIE的整体计划适当性评分为95%,初级保健医生为72%;第二次就诊中分别为96%和80%;第三次就诊中分别为98%和81%。治疗建议的适当性也呈现类似趋势,AMIE在三次就诊中分别达到87%、90%和94%,而初级保健医生分别为66%、62%和71%。

在检查建议方面,AMIE在后两次随访中的适当性评分显著更高。第二次就诊中,AMIE为94%,初级保健医生为75%;第三次就诊中,AMIE为92%,初级保健医生为79%。在至少一次就诊中,AMIE还在避免重大错误、提供适当随访建议、避免不恰当治疗等方面显著优于医生。初级保健医生在少数评价轴上略高于AMIE,例如某些随访场景中避免不恰当检查,但差异并不具有统计学显著性。

AMIE给出的建议更加精确

AMIE的一个突出优势是其检查和治疗建议更加具体、清晰和可执行。对于检查建议,AMIE在三次就诊中均获得更高精确性评分,而且在随访中差距进一步扩大。第一次就诊中,AMIE检查建议的精确性为98%,初级保健医生为87%;第二次就诊中分别为99%和82%;第三次就诊中分别为98%和82%。

治疗建议的精确性差距更明显。AMIE在三次就诊中分别达到96%、95%和95%,而初级保健医生分别为62%、65%和67%。这意味着AMIE不仅会提出“给予抗生素”或“安排随访”这样的方向性建议,还更倾向于给出具体药物名称、剂量、给药途径、疗程、监测方式、复诊时间和警示症状。研究人员认为,这种从笼统建议到可执行临床指令的转变,对真实医疗场景具有重要意义。

AMIE与临床指南的一致性更强

在临床指南使用方面,AMIE和初级保健医生在选择适用指南方面均取得较高分数。随访中,初级保健医生在适用指南选择上略高,但差异不显著。更重要的是,AMIE在治疗建议与指南一致性方面显著优于医生。第一次就诊中,AMIE治疗建议与指南一致性的评分为91%,医生为87%;第二次就诊中分别为93%和75%;第三次就诊中分别为97%和79%。

AMIE还更常为治疗建议提供明确的指南依据。三次就诊中,AMIE在这一项上均达到100%,而初级保健医生分别为92%、91%和86%。检查建议也呈现相似趋势:AMIE提出的检查更常与指南保持一致,并且在部分就诊中更常提供明确指南引用。

这一结果并不意味着所有临床管理都应机械遵循指南。研究人员指出,真实管理推理远比指南匹配复杂,经验丰富的医生有时会基于患者情境合理偏离指南。然而,在慢性病和复杂疾病管理中,指南导向治疗通常与更高质量照护相关。AMIE能够稳定地选择、整合和引用指南,提示其未来可能在指南实施、质量改进和减少不必要实践差异方面具有潜力。

模型和智能体的消融分析

研究人员还进行了消融实验,以评估不同组件对AMIE表现的贡献。被测试的组件包括后训练模型、对话智能体和管理推理智能体。研究人员进一步分析了管理推理智能体内部不同设计的影响,例如指南检索、长上下文推理、结构化生成和多草案整合等。结果显示,智能体式指南检索与长上下文推理对管理计划质量具有明显贡献,而随着基础模型能力快速增强,部分复杂智能体脚手架的重要性可能会发生变化。换言之,AMIE的表现既来自系统架构设计,也受底层基础模型能力提升的影响。


图4|管理计划质量。

管理推理经验关键特征

研究人员使用管理推理经验关键特征量表,进一步比较AMIE与初级保健医生在更细粒度管理推理能力上的相对表现。该量表包含10个评价轴,覆盖多个合理方案之间的比较与选择、患者偏好和约束的优先级排序、沟通与共同决策、管理计划的持续监测和调整、疾病特异性知识、医生作为患者教育者的角色、医患关系建立、预后判断以及临床会诊组织等方面。

在大约一半病例中,评价者无法在AMIE和医生之间做出明确偏好,中位平局率约为49%。然而,一旦评价者表达偏好,AMIE被偏好的频率明显高于初级保健医生。AMIE的中位胜率约为47%,而初级保健医生约为7%。这一趋势在专科医生和患者演员两个评价视角中均较一致。

某些管理推理特征会随着多次就诊发生变化,尤其是与时间维度相关的能力。例如,“管理计划的监测与调整”和“临床会诊组织”在三次就诊过程中显示出更明显的偏好变化。随着病例逐步展开,平局比例减少,AMIE和医生之间的差异更容易被观察到。在“关系建立”方面,从专科医生视角看,AMIE的偏好率随就诊次数增加而提高,而医生表现相对稳定。这提示AMIE在跨就诊持续对话中可能逐渐形成更强的关系维持和上下文整合能力。


图5|管理推理经验关键特征。

药物推理准确性

研究人员使用RxQA基准测试AMIE和初级保健医生的药物推理能力。RxQA包含600道多项选择题,问题来自美国OpenFDA和英国BNF药物处方集,并由认证药师修订和验证。研究人员将问题分为较低难度和较高难度两组,并分别测试闭卷和开卷条件。闭卷条件下,AMIE和医生均不能访问外部药物信息;开卷条件下,医生可查看相关药物标签,AMIE可从药物处方集中检索相关信息。

RxQA对AMIE和医生都具有挑战性。即使在较低难度、开卷条件下,医生最高准确率为67.4%,AMIE最高准确率为73.8%,仍有较大提升空间。这说明药物推理任务比一般医学问答更复杂,需要准确理解适应证、剂量、禁忌证、相互作用、不良反应和特殊人群用药等信息。

在药师评定为较高难度的问题上,AMIE显著优于初级保健医生。闭卷条件下,AMIE准确率为50.6%,医生为41.5%;开卷条件下,AMIE为57.9%,医生为47.8%。对于较低难度问题,AMIE和医生之间未观察到显著差异。无论是AMIE还是医生,访问外部知识资源都会显著提高表现。较低难度问题中,医生从46.6%提升至67.4%,AMIE从52.8%提升至73.8%;较高难度问题中,两者也均有显著提升,但幅度较小。

研究人员认为,这一结果说明动态药物信息检索对于临床人工智能系统非常重要。与简单地把药物标签放入上下文不同,AMIE会主动检索相关信息,这更接近真实临床工作流,也更符合未来可部署系统的需求。

研究人员表明,AMIE在多种疾病管理推理挑战中表现稳定,能够完成跨多次就诊的临床对话,并生成不劣于认证初级保健医生的管理计划。尤其在初诊中,AMIE在整体计划适当性和随访建议方面优于医生;在后续就诊中,医生表现有所接近,但没有任何评价领域显示医生显著优于AMIE。

AMIE在纵向照护场景中的表现具有重要意义。真实医疗系统中,患者往往在不同时间见到不同医生,尤其是慢性病患者更容易受到医疗碎片化影响。照护碎片化与慢性病患者结局恶化相关。AMIE能够跨多次就诊维持状态、记住既往信息、解释新获得的实验室检查和专科意见,并据此调整管理计划,这提示未来对话式管理智能体可能成为碎片化医疗系统中的连续性支持工具。研究人员强调,这种工具既可能独立辅助患者,也可能与临床医生协作,但前提是经过严格、安全、前瞻性的临床验证。

AMIE与人类医生的管理计划存在一些显著差异。最突出的是AMIE在治疗和检查建议上更加精确。它倾向于将临床建议具体化为可以执行的指令,例如药物名称、剂量、给药方式、疗程、复查项目、随访间隔和需要警惕的症状。研究人员认为,精确性不仅影响临床可执行性,也可能影响患者参与度。随着越来越多患者能够访问自己的医疗记录,清晰、具体的说明可能有助于患者更好地完成检查、随访和治疗计划。

AMIE在指南选择和指南一致性方面也表现突出。疾病管理并不是简单照搬指南,因为指南常常无法完全覆盖个体患者的复杂情境,经验丰富的医生也可能基于实际情况合理偏离指南。然而,临床实践指南的实施通常与更高质量照护相关,尤其在心力衰竭、糖尿病等复杂慢性病管理中,指南导向治疗可能降低发病率和死亡率。AMIE能够动态检索和引用指南,因此具有一定灵活性。例如,不同国家或地区的临床机构可以将系统使用的指南库替换为本地指南、世界卫生组织指南或受药物短缺影响后的本地治疗更新。

研究人员还提出了管理推理经验关键特征量表,用于评估疾病管理推理中更难量化的能力。这一工具源自对门诊临床医生管理推理的心理学研究,旨在解决管理决策高度依赖情境、没有唯一最佳答案的问题。在盲法评分中,专科医生更常偏好AMIE而非初级保健医生,虽然约一半病例二者难以区分。研究人员认为,这些结果需要进一步研究,但初步显示AMIE可能具备接近初级保健医生水平的管理推理质量。

AMIE的能力反映了大型语言模型在临床对话与推理方面的快速进步。这些能力与模型推理能力、长上下文处理能力、结构化输出、检索增强和智能体设计共同相关。研究人员指出,临床中最令人担忧的问题之一是模型产生虚构或错误内容。AMIE通过多智能体系统、指南引用和结构化推理,在一定程度上降低了虚构风险。与此同时,基础模型本身也在快速进步,这可能减少某些复杂后训练或智能体脚手架的必要性。研究人员认为,本研究的持久贡献不仅在于某一时点的AMIE性能,更在于提出了评估疾病管理型AI系统的实验范式、消融分析方法和纵向安全能力评估框架。

RxQA药物推理基准也是本研究的重要贡献。传统医学考试类基准逐渐趋于饱和,已难以区分先进模型的能力,因此需要新的、更具挑战性的任务。RxQA聚焦药物使用知识与推理,从两个国家药物处方集中构建问题,并由认证药师验证。结果显示,RxQA对医生和AMIE都较难,尤其是在复杂药物问题上仍有显著提升空间。AMIE在高难度问题上优于医生,但研究人员强调,真实临床中的药物决策通常会受到药师、电子处方系统、临床决策支持和处方警示的共同监督,因此这里的人类表现不应被解释为真实世界临床能力的完整衡量,而是作为实验对照基线。

尽管结果令人鼓舞,研究仍存在多项局限。首先,标准化患者是医学教育中的常用评估方式,但并不等同于真实临床照护。模拟病例通常具有明确答案,并为评分可靠性而受到限制,缺少真实病例中复杂的病历审查、长期病程、社会背景和不确定性。其次,本研究病例使用英国NICE和BMJ Best Practice指南,而参与的初级保健医生来自加拿大和印度,他们在日常实践中对这些指南的熟悉程度可能有限。虽然研究过程中医生可以访问相关指南,但这仍不完全等同于真实工作环境。

第三,虽然病例叙事中疾病进展可能跨越数周或数月,但实际研究中三次就诊间隔为1至2天。这可能提高了人类医生表现,因为医生更容易记住病例细节,而真实临床中医生可能隔很长时间才再次见到患者。第四,研究采用文本聊天界面,而真实远程医疗通常通过音频或视频进行。文本界面便于与聊天机器人互动,并有助于盲法控制,但无法评估语音、面部表情、语气和其他多模态线索。

此外,本研究中的AMIE界面与真实临床工作流存在明显差异。真实医疗中,医嘱通常通过电子医嘱系统输入,而不是自由文本;电子医嘱系统往往包含药物剂量、处方集限制、医嘱套餐、药物相互作用警示和药师审核,这些机制可能进一步提高安全性。研究中的AMIE尚未与这类临床系统深度整合。

研究人员还指出,虽然管理推理经验关键特征量表具有初步构念效度,但仍需要在真实世界中进一步验证其可靠性和心理测量学特征。本研究主要基于对话内容和就诊后问卷评估管理推理;AMIE内部还生成了多个推理轨迹,但研究人员并未系统量化分析这些隐性推理轨迹。未来工作可以重点研究医疗AI系统的推理轨迹,设计能够主动审查推理错误、验证指南引用、纠正潜在错误的智能体组件。

最重要的是,研究人员强调,AMIE目前仍不是可直接用于真实临床照护的系统。本研究展示的是一种“可能性证明”,即在模拟环境中探索AMIE进行纵向疾病管理推理的能力和限制。在真实应用之前,还需要解决潜在推理错误、虚构内容、安全性、伦理监管、患者隐私、责任归属和前瞻性临床证据等关键问题。

总体而言,本研究表明,AMIE不仅能够采集病史和形成鉴别诊断,还能在多次就诊病例中做出细致的疾病管理决策,其表现达到或超过初级保健医生基线。尽管距离真实临床应用仍有很长路径,但这项研究代表了向安全、公平、伦理且可扩展的智能体式医疗人工智能迈出的重要一步。

整理 | DrugOne团队

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

/阅读下一篇/

返回网易首页
下载网易新闻客户端

返回顶部