微信扫码
添加专属顾问
我要投稿
利用大型语言模型和RAG技术,MALADE系统革新药物警戒领域。 核心内容: 1. MALADE系统:结合LLMs和RAG技术的药物警戒解决方案 2. 系统架构:不依赖特定LLMs,利用多种外部资源 3. 实例化与性能:使用GPT-4和FDA数据,AUC高达0.90
在大型语言模型(LLMs)的时代,鉴于它们卓越的文本理解和生成能力,开发基于LLMs的新方法用于可信医学知识的综合、提取和总结是前所未有的机遇。本文关注药物警戒(PhV)问题,其重要性和挑战在于从多样化的文本资源(如医学文献、临床笔记和药品标签)中识别不良药物事件(ADEs)。不幸的是,这一任务受到多种因素的阻碍,包括药物和结果的术语差异,以及ADEs描述通常淹没在大量叙述性文本中。我们提出了MALADE,首个有效利用大型语言模型与检索增强生成技术进行药品标签数据中ADEs提取的协作多代理系统。该技术涉及将相关信息从文本资源中提取出来,并增强对大型语言模型的查询,指导其生成与增强数据一致的响应。MALADE是一种通用的、不依赖于特定大型语言模型的架构,其独特功能包括:(1)利用多种外部资源,如医学文献、药品标签和FDA工具(例如开放FDA药物信息API)、(2)以结构化格式提取药物与结果之间的关联以及关联的强度,以及(3)为已建立的关联提供解释。MALADE采用GPT-4 Turbo或GPT-4o和FDA药物标签数据进行实例化,在针对ADE的真值表OMOP上,其ROC曲线下面积(AUC)达到0.90,展示了其有效性。我们的实现利用了Langroid多智能体大型语言模型框架。
药物警戒(PhV)是识别和预防药品上市后由药品引起的不良药物事件(ADEs)的科学。药物警戒对制药行业和公共卫生极为重要,因为它旨在通过检测新的安全问题并在必要时进行干预来保护患者的福祉。
传统上,各种经典的自然语言处理(NLP)和深度学习技术已被用于解决此问题[22, 21, 35, 2]。与经典的NLP方法相比,当今最好的大型语言模型(LLMs)(甚至较弱的开源/本地LLMs[36, 11])在文本理解和生成能力方面取得了显著进步,利用这些模型不仅可以改进现有的ADE提取方法,还可以考虑之前无法使用的数据来源。最近尝试将LLMs应用于ADE提取仅利用现成的ChatGPT[38],但其性能有限,且提取理由的推理不一致[32]。这些限制主要源于两个因素:(a)准确的ADE提取需要访问特定数据源,而LLMs可能没有“见过”。 在预训练期间,依赖大型语言模型(LLM)的“内置”知识会产生不准确的结果;以及(b)由于大型语言模型是概率性下一个词元预测器,如果未经仔细地将任务分解为更简单的子任务,或者没有机制来验证和纠正它们的响应,则可能会产生错误或不可靠的结果。
本文中,我们介绍了MALADE2(由LLM驱动的多智能体用于不良事件提取),这是首个有效的不良事件提取多智能体检索增强生成(RAG)系统。我们的方法利用两项关键技术分别解决上述两个限制:(a)RAG,通过用相关文本数据片段增强输入查询,并提示大型语言模型生成与增强信息一致的响应[15];(b)策略性地协调多个基于大型语言模型的智能体,每个智能体负责整体不良事件提取任务中相对较小的子任务[41]。具体来说,我们的系统有专门处理这些子任务的智能体(见图1):(1)从医疗数据库(例如,MIMIC-IV)中识别每个药物类别的代表性药物,(2)从外部文本知识库(例如,FDA药品标签数据库)收集有关这些药物的副作用信息,最后,(3)编写总结药物类别对不良事件影响的最终答案。每个智能体被分配一个特定的子任务,并与其它智能体合作完成不良事件识别的最终目标。此外,我们通过将每个代理与一个评论家代理配对来进一步提高多代理系统的可靠性,评论家代理的作用是验证其对应代理的行为和响应。
该系统虽然在这里专门用于药物不良反应(ADE)的提取,但它展示了如何使用多代理方法生成可信的、基于证据的总结和信心分数,以应对需要综合来自多个临床知识和数据来源的证据的挑战性医学问题。因此,MALADE 可以被视为一个案例研究,说明了一种可能随后应用于临床决策支持(PhV)中其他问题的方法,包括识别可能的药物相互作用,以及 PhV 以外的临床问题,如识别临床记录中已知的感兴趣病状的症状。
总之,我们的论文做出了以下贡献。
精确评估。与仅生成一个二进制标签来指示药物类别 C 是否与不良事件 E 相关联的较简单系统不同,我们的方法生成不同的分数,包括一个信心分数,该分数表示大型语言模型对其标签分配的信心程度。这些分数允许我们根据既定的观察性医疗成果伙伴计划(OMOP)关于常见药物类别相关联的 ADE 的真实表格进行严格的定量评估[19]。我们使用 GPT-4 Turbo 实现了大约 0.85 的曲线下面积(AUC),而使用 GPT-4o 实现了 0.90(第 5 节)。据我们所知,这是基线方法中表现最好的,尽管直接比较可能有限。
生成有理有据的回应和理由。MALADE的设计提供了对于高风险应用如药物不良反应(ADE)识别至关重要的关键特性:(1)一种结构化的药物与结果关联格式,包括表示关联强度和不良事件罕见性的分数;这对于确保提取关联信息的稳健下游处理非常重要。(2)对提取的药物与结果关联提供理由,使人类专家能够理解并验证这些关联。这得益于MALADE架构中的RAG组件,它允许利用各种外部来源,如医学文献、药品标签、FDA工具(例如OpenFDA药品信息API),以及常见的临床数据来源如OMOP或PCORI,甚至可用的特定电子健康记录(EHR)系统。可观测性,即完整的、详细的代理间对话和中间步骤日志;这些对于调试和审计系统行为至关重要。
关于医疗保健领域中机器学习的可泛化见解。我们提出的多代理架构不依赖于大型语言模型和数据源,并且基于旨在成为多个基于大型语言模型的代理协调的通用构建块的设计原语(第3节)。因此,尽管MALADE专门用于药物不良反应(ADE)识别,我们的设计方法学提供了一个通用的蓝图,用于有效构建多智能体系统,以进行可信的医疗知识合成和总结,具有广泛的医疗应用。
这篇论文提出了MALADE,第一个有效的多代理系统,利用LLM和检索增强生成(RAG)技术进行药物标签数据中的ADE提取。具体来说,
检索增强生成(RAG):RAG技术通过向LLM输入查询时增加相关文本数据,并指导LLM生成与增强数据一致的回答。RAG的基本思想是当向LLM代理提出查询时,从文档存储中检索最相关的文档片段,并将原始查询与这些片段一起增强为新的提示,然后让LLM基于这些片段回答原始查询。
多代理系统:MALADE系统由多个LLM驱动的代理组成,每个代理负责一个相对较小的子任务。具体子任务包括:从医学数据库中识别代表性药物、从外部文本知识库中收集药物的副作用信息、以及综合药物类别对不良健康结果的影响。每个代理与其对应的评论家代理配对,评论家代理验证主要代理的行为和响应。
Agent-Critic交互:Agent-Critic交互模式是MALADE系统的核心设计模式。Agent负责处理外部输入和输出,Critic则验证Agent的推理步骤和遵守指令的情况,并提供反馈。Agent根据反馈迭代生成响应,直到Critic满意为止。
ADE识别效果:MALADE在区分ADE和非ADE方面表现良好,基于效果的AUC和F1评分分别为0.851和0.609(GPT-4 Turbo),基于ADE的AUC和F1评分分别为0.851和0.556(GPT-4 Turbo)。
Agent-Critic交互的有效性:通过消融实验,发现Critic显著提高了系统的可靠性,特别是在没有强证据的情况下(即地面真值为“无效果”的情况)。
理由提供的洞察:MALADE提供的理由与人类专家的推理一致,帮助理解系统的失败模式。例如,CategoryAgent偶尔会基于弱证据过高估计药物类别的风险。
这篇论文提出的MALADE系统通过多代理协作和检索增强生成技术,显著提高了从药物标签数据中提取ADE信息的准确性和可靠性。MALADE不仅在ADE识别任务中表现出色,还为未来的药物警戒研究和更广泛的医疗任务提供了一个通用的多代理系统架构。
论文评价
问题1:MALADE系统在处理药物标签数据中的不良药物事件(ADE)提取时,如何利用检索增强生成(RAG)技术来提高准确性?
通过这种方式,RAG技术不仅弥补了LLM在预训练过程中可能缺乏的最新知识,还提供了证据引用的能力,从而显著提高了ADE提取的准确性和可靠性。
问题2:MALADE系统中的多代理架构是如何设计的?各个代理的具体职责是什么?
MALADE系统由多个LLM驱动的代理组成,每个代理负责一个相对较小的子任务。具体职责如下:
通过这种多代理协作的方式,MALADE系统能够有效地分解复杂任务,并利用多个代理的集体知识和专长来提高ADE提取的准确性和可靠性。
问题3:MALADE系统在实验中表现如何?与其他方法相比有哪些优势?
与其他方法相比,MALADE系统的优势在于其结合了多代理协作和检索增强生成技术,能够在处理复杂任务时提供更高准确性和可靠性的结果。此外,MALADE的设计原则和具体实现方法还可以扩展到其他医疗任务和药物警戒研究中,提供更通用的解决方案。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-05-23
2025-05-16
2025-05-15
2025-05-14
2025-05-14
2025-05-13
2025-05-11
2025-05-08