我要投稿

MALADE：基于大模型Agent智能体与RAG技术进行药物警戒的不良事件AE识别

发布日期：2025-05-25 19:49:28 浏览次数： 1849

作者：知识图谱科技

微信搜一搜，关注“知识图谱科技”

MALADE: Orchestration of LLM-powered Agents with RAG for Pharmacovigilance

摘要

在大型语言模型（LLMs）的时代，鉴于它们卓越的文本理解和生成能力，开发基于LLMs的新方法用于可信医学知识的综合、提取和总结是前所未有的机遇。本文关注药物警戒（PhV）问题，其重要性和挑战在于从多样化的文本资源（如医学文献、临床笔记和药品标签）中识别不良药物事件（ADEs）。不幸的是，这一任务受到多种因素的阻碍，包括药物和结果的术语差异，以及ADEs描述通常淹没在大量叙述性文本中。我们提出了MALADE，首个有效利用大型语言模型与检索增强生成技术进行药品标签数据中ADEs提取的协作多代理系统。该技术涉及将相关信息从文本资源中提取出来，并增强对大型语言模型的查询，指导其生成与增强数据一致的响应。MALADE是一种通用的、不依赖于特定大型语言模型的架构，其独特功能包括：（1）利用多种外部资源，如医学文献、药品标签和FDA工具（例如开放FDA药物信息API）、（2）以结构化格式提取药物与结果之间的关联以及关联的强度，以及（3）为已建立的关联提供解释。MALADE采用GPT-4 Turbo或GPT-4o和FDA药物标签数据进行实例化，在针对ADE的真值表OMOP上，其ROC曲线下面积（AUC）达到0.90，展示了其有效性。我们的实现利用了Langroid多智能体大型语言模型框架。

引言

药物警戒（PhV）是识别和预防药品上市后由药品引起的不良药物事件（ADEs）的科学。药物警戒对制药行业和公共卫生极为重要，因为它旨在通过检测新的安全问题并在必要时进行干预来保护患者的福祉。

药物警戒（PhV）中的核心问题是不良事件（ADE）提取：给定一个药物类别C和一个不良事件E，确定C是否（以及多大程度上）与E相关联。这项任务需要分析来自各种来源的大量文本数据，如患者病历、临床笔记、社交媒体、自发报告系统、药品标签、医学文献和临床试验报告。除了这些来源的文本量庞大之外，ADE提取还因药物名称和结果的变异性，以及ADE描述通常隐藏在大量叙述文本中的事实而变得更加复杂[14]。

传统上，各种经典的自然语言处理（NLP）和深度学习技术已被用于解决此问题[22, 21, 35, 2]。与经典的NLP方法相比，当今最好的大型语言模型（LLMs）（甚至较弱的开源/本地LLMs[36, 11]）在文本理解和生成能力方面取得了显著进步，利用这些模型不仅可以改进现有的ADE提取方法，还可以考虑之前无法使用的数据来源。最近尝试将LLMs应用于ADE提取仅利用现成的ChatGPT[38]，但其性能有限，且提取理由的推理不一致[32]。这些限制主要源于两个因素：（a）准确的ADE提取需要访问特定数据源，而LLMs可能没有“见过”。在预训练期间，依赖大型语言模型（LLM）的“内置”知识会产生不准确的结果；以及（b）由于大型语言模型是概率性下一个词元预测器，如果未经仔细地将任务分解为更简单的子任务，或者没有机制来验证和纠正它们的响应，则可能会产生错误或不可靠的结果。

本文中，我们介绍了MALADE2（由LLM驱动的多智能体用于不良事件提取），这是首个有效的不良事件提取多智能体检索增强生成（RAG）系统。我们的方法利用两项关键技术分别解决上述两个限制：（a）RAG，通过用相关文本数据片段增强输入查询，并提示大型语言模型生成与增强信息一致的响应[15]；（b）策略性地协调多个基于大型语言模型的智能体，每个智能体负责整体不良事件提取任务中相对较小的子任务[41]。具体来说，我们的系统有专门处理这些子任务的智能体（见图1）：（1）从医疗数据库（例如，MIMIC-IV）中识别每个药物类别的代表性药物，（2）从外部文本知识库（例如，FDA药品标签数据库）收集有关这些药物的副作用信息，最后，（3）编写总结药物类别对不良事件影响的最终答案。每个智能体被分配一个特定的子任务，并与其它智能体合作完成不良事件识别的最终目标。此外，我们通过将每个代理与一个评论家代理配对来进一步提高多代理系统的可靠性，评论家代理的作用是验证其对应代理的行为和响应。

该系统虽然在这里专门用于药物不良反应（ADE）的提取，但它展示了如何使用多代理方法生成可信的、基于证据的总结和信心分数，以应对需要综合来自多个临床知识和数据来源的证据的挑战性医学问题。因此，MALADE 可以被视为一个案例研究，说明了一种可能随后应用于临床决策支持（PhV）中其他问题的方法，包括识别可能的药物相互作用，以及 PhV 以外的临床问题，如识别临床记录中已知的感兴趣病状的症状。

总之，我们的论文做出了以下贡献。

精确评估。与仅生成一个二进制标签来指示药物类别 C 是否与不良事件 E 相关联的较简单系统不同，我们的方法生成不同的分数，包括一个信心分数，该分数表示大型语言模型对其标签分配的信心程度。这些分数允许我们根据既定的观察性医疗成果伙伴计划（OMOP）关于常见药物类别相关联的 ADE 的真实表格进行严格的定量评估[19]。我们使用 GPT-4 Turbo 实现了大约 0.85 的曲线下面积（AUC），而使用 GPT-4o 实现了 0.90（第 5 节）。据我们所知，这是基线方法中表现最好的，尽管直接比较可能有限。

生成有理有据的回应和理由。MALADE的设计提供了对于高风险应用如药物不良反应（ADE）识别至关重要的关键特性：（1）一种结构化的药物与结果关联格式，包括表示关联强度和不良事件罕见性的分数；这对于确保提取关联信息的稳健下游处理非常重要。（2）对提取的药物与结果关联提供理由，使人类专家能够理解并验证这些关联。这得益于MALADE架构中的RAG组件，它允许利用各种外部来源，如医学文献、药品标签、FDA工具（例如OpenFDA药品信息API），以及常见的临床数据来源如OMOP或PCORI，甚至可用的特定电子健康记录（EHR）系统。可观测性，即完整的、详细的代理间对话和中间步骤日志；这些对于调试和审计系统行为至关重要。

关于医疗保健领域中机器学习的可泛化见解。我们提出的多代理架构不依赖于大型语言模型和数据源，并且基于旨在成为多个基于大型语言模型的代理协调的通用构建块的设计原语（第3节）。因此，尽管MALADE专门用于药物不良反应（ADE）识别，我们的设计方法学提供了一个通用的蓝图，用于有效构建多智能体系统，以进行可信的医疗知识合成和总结，具有广泛的医疗应用。

核心速览

研究背景

研究问题
：这篇文章要解决的问题是如何从药物标签数据中提取不良药物事件（ADE）信息。药物警戒（PhV）是识别和预防药品上市后引起的不良药物事件的科学，其重要性在于保护患者的健康。
研究难点
：该问题的研究难点包括：药物和结果的术语不一致、ADE描述通常埋藏在大量叙述性文本中、以及现有的自然语言处理（NLP）和深度学习技术在处理这些复杂任务时的局限性。
相关工作
：该问题的研究相关工作包括使用大规模研究计划（如Sentinel、OMOP和OHDSI）开发的因果发现方法，以及利用社交论坛构建ADE预测模型的研究。最近的研究尝试将大型语言模型（LLMs）应用于ADE提取，但存在知识局限性和单一LLM推理不一致的问题。

研究方法

这篇论文提出了MALADE，第一个有效的多代理系统，利用LLM和检索增强生成（RAG）技术进行药物标签数据中的ADE提取。具体来说，

检索增强生成（RAG）：RAG技术通过向LLM输入查询时增加相关文本数据，并指导LLM生成与增强数据一致的回答。RAG的基本思想是当向LLM代理提出查询时，从文档存储中检索最相关的文档片段，并将原始查询与这些片段一起增强为新的提示，然后让LLM基于这些片段回答原始查询。
多代理系统：MALADE系统由多个LLM驱动的代理组成，每个代理负责一个相对较小的子任务。具体子任务包括：从医学数据库中识别代表性药物、从外部文本知识库中收集药物的副作用信息、以及综合药物类别对不良健康结果的影响。每个代理与其对应的评论家代理配对，评论家代理验证主要代理的行为和响应。
Agent-Critic交互：Agent-Critic交互模式是MALADE系统的核心设计模式。Agent负责处理外部输入和输出，Critic则验证Agent的推理步骤和遵守指令的情况，并提供反馈。Agent根据反馈迭代生成响应，直到Critic满意为止。

实验设计

数据收集
：实验使用了OMOP评估地面真值任务（OMOP ADE任务），该任务为每个（药物类别，健康结果）对分配三个标签之一：“增加”、“减少”或“无效果”。
实验设置
：评估了两种LLM：GPT-4 Turbo和GPT-4o。对于每种LLM，进行了基于效果的分类和基于ADE的分类的AUC和F1评分分析。
实验步骤
：

STEP 1
：通过查询FDA的国家药品代码（NDC）数据库，找到属于药物类别的广泛药物列表，并使用MIMIC-IV临床数据库中的处方率筛选出最常见的三种药物。
STEP 2
：每个代表性药物的Agent（DrugAgent）生成关于其对健康结果影响的自由文本摘要，参考最新的外部药物参考来源（如FDA药物标签数据库）。
STEP 3
：类别Agent（CategoryAgent）结合药物级别的信息，生成结构化报告，包括药物类别对健康结果影响的标签、置信度得分、风险水平和证据强度。

结果与分析

ADE识别效果：MALADE在区分ADE和非ADE方面表现良好，基于效果的AUC和F1评分分别为0.851和0.609（GPT-4 Turbo），基于ADE的AUC和F1评分分别为0.851和0.556（GPT-4 Turbo）。
Agent-Critic交互的有效性：通过消融实验，发现Critic显著提高了系统的可靠性，特别是在没有强证据的情况下（即地面真值为“无效果”的情况）。
理由提供的洞察：MALADE提供的理由与人类专家的推理一致，帮助理解系统的失败模式。例如，CategoryAgent偶尔会基于弱证据过高估计药物类别的风险。

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

总体结论

这篇论文提出的MALADE系统通过多代理协作和检索增强生成技术，显著提高了从药物标签数据中提取ADE信息的准确性和可靠性。MALADE不仅在ADE识别任务中表现出色，还为未来的药物警戒研究和更广泛的医疗任务提供了一个通用的多代理系统架构。

论文评价

优点与创新

多代理架构
：MALADE是第一个有效的多代理检索增强生成（RAG）系统，专门用于药物标签数据中的不良事件（ADE）提取。
外部知识利用
：系统能够利用多种外部资源，如医学文献、药物标签和FDA工具（例如OpenFDA药物信息API），增强了LLM的知识基础。
结构化输出
：系统生成的结构化报告包含药物与结果关联的标签、置信度分数、证据强度和罕见度，便于下游处理和分析。
解释性
：系统提供了对已建立关联的解释，使人类专家能够理解和验证这些关联。
可靠性增强
：通过引入批评代理来验证主要代理的输出，显著提高了系统的可靠性。
通用性
：MALADE的设计方法不仅适用于ADE提取，还可以扩展到其他药物安全监测（PhV）问题，甚至是非医疗领域的临床问题。

不足与反思

依赖文本数据
：系统完全依赖于文本形式的FDA标签数据，如果信息没有明确包含在标签中，系统无法可靠地识别任何关联的强度。
未来工作方向
：未来的工作方向包括从电子健康记录（EHR）数据中提取ADE，以及使用本地开源LLMs（如LlaMA、Grok和Mistral）进行详细评估。
初始步骤的人工输入
：系统在初始步骤需要一些最小的人工输入，例如将药物类别名称转换为FDA数据库期望的形式。
结构化输入输出的增加
：增加使用结构化输入和输出可能会提高DrugAgent的可靠性，例如通过强制执行某些信息的存在来替代自由文本输出。

关键问题及回答

问题1：MALADE系统在处理药物标签数据中的不良药物事件（ADE）提取时，如何利用检索增强生成（RAG）技术来提高准确性？

检索阶段
：从文档存储中检索与查询最相关的文档片段。这些文档片段可以是来自FDA药物标签数据库、MIMIC-IV临床数据库等的外部文本数据。
增强阶段
：将检索到的文档片段与原始查询合并，形成新的提示。例如，如果原始查询是“Does drug X increase the risk of condition Y?”，增强后的提示可能是“Given the passages below: [document passages], answer this question: Does drug X increase the risk of condition Y based ONLY on these passages, and indicate which passages support your answer.”
生成阶段
：指导大型语言模型（LLM）基于增强后的提示生成回答。LLM生成的回答将与增强的文档片段保持一致，并提供引用这些片段作为支持其回答的证据。

通过这种方式，RAG技术不仅弥补了LLM在预训练过程中可能缺乏的最新知识，还提供了证据引用的能力，从而显著提高了ADE提取的准确性和可靠性。

问题2：MALADE系统中的多代理架构是如何设计的？各个代理的具体职责是什么？

MALADE系统由多个LLM驱动的代理组成，每个代理负责一个相对较小的子任务。具体职责如下：

DrugFinder
：从FDA的国家药品代码（NDC）数据库中找到属于药物类别的广泛药物列表，并使用MIMIC-IV临床数据库中的处方率筛选出最常见的三种药物。
DrugAgent
：每个代表性药物的Agent生成关于其对健康结果影响的自由文本摘要。它参考最新的外部药物参考来源（如FDA药物标签数据库），并生成包含风险水平和证据强度的摘要。
CategoryAgent
：结合药物级别的信息，生成结构化报告。报告包括药物类别对健康结果影响的标签（如“增加”、“减少”或“无效果”）、置信度得分、风险水平和证据强度。
Critic
：每个Agent与其对应的评论家代理配对，评论家代理验证主要代理的行为和响应。Critic提供反馈，帮助Agent改进其生成的回答，直到其回答被接受为止。

通过这种多代理协作的方式，MALADE系统能够有效地分解复杂任务，并利用多个代理的集体知识和专长来提高ADE提取的准确性和可靠性。

问题3：MALADE系统在实验中表现如何？与其他方法相比有哪些优势？

ADE识别效果
：MALADE在区分ADE和非ADE方面表现良好。基于效果的AUC和F1评分分别为0.851和0.609（GPT-4 Turbo），基于ADE的AUC和F1评分分别为0.851和0.556（GPT-4 Turbo）。这些结果表明，MALADE能够有效识别药物类别与健康结果之间的关联。
Agent-Critic交互的有效性
：通过消融实验，发现Critic显著提高了系统的可靠性，特别是在没有强证据的情况下（即地面真值为“无效果”的情况）。这表明，Agent-Critic交互模式在提高LLM生成回答的准确性方面起到了关键作用。
理由提供的洞察
：MALADE提供的理由与人类专家的推理一致，帮助理解系统的失败模式。例如，CategoryAgent偶尔会基于弱证据过高估计药物类别的风险。这种能力不仅提高了系统的准确性，还为改进系统提供了有价值的反馈。

与其他方法相比，MALADE系统的优势在于其结合了多代理协作和检索增强生成技术，能够在处理复杂任务时提供更高准确性和可靠性的结果。此外，MALADE的设计原则和具体实现方法还可以扩展到其他医疗任务和药物警戒研究中，提供更通用的解决方案。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业