我要投稿

小米 Mi-BRAG 智能引擎：全模态文档问答与细粒度溯源的创新实践

发布日期：2025-05-19 06:42:33 浏览次数： 1881

作者：DataFunSummit

微信搜一搜，关注“DataFunSummit”

导读当产品功能越复杂、说明书越来越厚，AI 能否精准解析用户问题并即时给出答案？当相关领域文档越积越多，AI 能否精确定位跨文档的核心内容并进行提炼？在大模型时代，如何突破通用知识的局限，构建兼具专业性与个性化的知识库问答系统？基于这些行业痛点，小米创新研发 Mi-BRAG 知识库问答框架，该框架通过四大核心技术体系重构知识处理范式，已在公司多个场景中落地应用，包括小爱同学的个人信息问答、汽车问答助手、商品问答等。

全格式兼容：搭载智能解析引擎，可无损处理 PDF、Word、Excel 等十余种文档格式，为企业构建统一知识库奠定基础。

全模态解析：突破传统文本局限，精准解析复杂图片、表格、图文混排等多元信息。
多语种问答：支持主流语言的文档解析与交互问答，打破知识流通的语种壁垒。
细粒度溯源：采用动态溯源定位技术，对每个生成结果标注原始文档及引用位置，一键追溯信息源头，构建可信知识生态。

主要内容包括以下几个部分：

1. 为什么要做 RAG？

2. 小米自研 RAG 的探索与创新

3. Mi-BRAG 评估方法

4. 总结及未来探索

分享嘉宾｜彭力

出品社区｜DataFun

为什么要做 RAG？

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

大模型（LLM）虽具备强大的生成能力，但仍面临诸多挑战：知识更新成本高、企业私有知识理解不足、数据安全隐患等。RAG（Retrieval-Augmented Generation，检索增强生成）技术的引入为这些问题提供了有效的解决方案。

弥补大模型的时新性：大模型基于历史数据进行训练，无法获取最新信息。RAG 通过检索最新的文档或数据库，可为生成过程注入实时信息，确保输出内容的准确性与时效性；
增强特定领域知识的准确性：大模型基于互联网公开数据，难以涵盖特定领域或者企业私有知识。RAG 技术通过构建外部知识库，实现特定知识注入，从而增强其在特定领域的表现。
数据隐私与安全性：大模型直接处理企业敏感数据（如内部文档）可能引发隐私泄露风险。RAG 通过检索阶段调用私有数据库（如本地化存储的企业知识库），在生成答案时仅基于检索到的相关片段进行加工，避免原始数据被模型存储或泄露。

小米自研 RAG 的探索与创新

小米拥有大量特色的业务和丰富的产品形态，这些都需公司内部协作效率提升、产品交互智能化、手机及汽车服务效率提升的技术和能力。在场景上 TOC（小爱个人信息问答、智能文档问答等）和 TOB（集团内部提效：新产品研发、员工助手、智能客服）等大量应用场景亟须自研的 RAG 框架提供领域安全高可靠的智能知识中枢提升产品的智能化及用户体验。

小米大模型团队认为，一个完整的知识问答框架应该包含如上图所示的四个部分：知识库创建（B）、知识检索（R）、知识增强（A）和回复生成（G）。而知识库创建（B）模块其实特别重要，对问答效果会产生至关重要的影响，不应被忽视，所以小米大模型团队将框架命名为 Mi-BRAG。Mi-BRAG 支持多种格式文档解析和图文混合的多模态问答，为用户提供更多应用选项。

在 RAG 的基础框架下，自研框架 Mi-BRAG 的技术创新主要分布在：

知识库创建（B）：跨模态的知识融合及构建“金字塔型”动态知识体系等
知识检索与增强（R-A）：用户 Query 理解的增强，多维语义增强等
回复生成（G）：为知识注入场景定制模型，强化无关信息的拒答、精细化的溯源的能力。

1. Build: 高质量的知识库构建

（1）金字塔知识体系构建

构建金字塔知识体系，就像为知识库安装了智能导航，既能精准定位具体段落，又能快速把握全局脉络。

（2）跨模态的知识融合

目前大多数 RAG 框架中对于图片知识的理解是通过 OCR 来实现图片内容的读取，但是这样的问题在于会缺失对图片内容的理解同时不能很好利用图片上下文的一些信息。小米大模型团队通过多模态大模型的语义对齐来达到跨模态的知识融合，实现多模态的知识理解。为了达成这一目标，首先使用图文双模态的通道语义理解，让系统具备跨模态的认知能力。然后通过强化后的多模态模型来为图片生成具有场景化丰富的语义的文本描述。最后把图文信息转化为统一的语义向量，建立文本至图片关联映射，当用户搜索图表内容时，不仅能够找到文字描述，还能精确关联到具体的图片、表格。让知识检索突破模态壁垒，实现 1+1>2 的融合价值。同样的方法可以应用到其它模态达到多种模态贯通的目的。目前在相关图表问答测试集上，效果远超竞品。

2. Retrival: 用户 Query 的理解与增强

（1）多维语义增强，离线结合更专业化

精细化的 PDF 解析方案可以对文档元素的深度理解。通过支持更加多样化的 Chunk 构建方式，可以进一步增强 RAG 的专业化水平。在优化解析精度和细腻度的基础上。团队通过多维度语义索引，突破单一 embedding 或关键词匹配的模式，采用多维度索引为每个知识片段生成多维度语义标签。当文档进入系统时采用：智能提炼渐进式内容摘要、生成关联性假设问题、提取文本所属关键词、多视角内容改写等手段增强知识提升 Chunk 的表征能力。

（2）用户 Query 理解的增强

检索流程中对用户问题提炼关键信息与深度理解是提升检索高相关内容的关键，也是高质量答案的基础。传统的 Query 理解主要依赖于规则驱动与浅层语义分析，通过归一化、拼写纠错、冗余信息删减等表层处理手段优化输入质量。这类方法存在语义理解深度不足、上下文感知能力缺失、语义鸿沟等局限性。Retirval 过程中向量检索通常依靠查询（Query）与文档（Doc）之间的相似程度。然而，该方法面临的挑战是：查询与文档往往处于不同的语义空间。

为了提升语义空间的一致性，除了优化 Embedding 模型外，团队也尝试在用户多轮的 query 理解及用启发性的假设性文档加假设性回答的方法来加强语义的一致性。用户的历史输入信息对于理解当前输入至关重要。用户历史输入隐含的指代关系和省略的信息。指代消解可以将缺失的上下文信息，通过多轮的对话对当前 Query 进行深度语义重构，精准洞察并明晰用户潜在意图。以此，实现对多轮对话 Query 检索召回率的显著提升，为用户提供更高效、更贴合需求的信息获取体验。

传统 RAG 检索大多由检索到生成，启发性的假设文档 &claim 方法在检索前增加了“生成—>分解—>过滤”的预处理阶段，形成了“生成辅助检索，检索再辅助生成”的闭环。该方法增强了 Query 理解，促使查询与文档在语义空间的深度对齐，有效规避语义偏差干扰，全方位提升检索准确率，主要包括如下三个阶段：

生成驱动的语义空间对齐：首先大模型根据原始 Query 生成具有启发性的假设性文档，这一过程能够弥补查询和文档的语义偏差，解决了传统方法中因查询表达模糊或者简短导致语义稀疏的问题；
结构化分解的检索目标：其次，基于本文逻辑划分 claim 后，为每个 claim 定制一个专用于验证性搜索的子查询，这一过程将原始查询转化为多个细粒度的检索目标，为复杂查询任务提供更灵活的中间表示(<claim>、<query>)；
相关性驱动的动态增强：最后，将与原始 Query 高度相关的子查询(<search>True)及其 claim 整合，不相关的子查询(<search>False)则过滤，进而对向量通道中的 Query 进行增强，赋予 Query 更强大且精准的语义内涵，这一过程筛选出高度相关的片段作为增强的依据，避免引入生成的噪声，平衡了语义扩展与精准性。

3. Generation: 鲁棒的抗噪声生成模型与精细化的溯源

Mi-BRAG 支持多种格式文档解析和图文混合的多模态问答，为用户提供更多应用选项。为了提升模型的多模态上下文理解和关键信息提取能力，我们引入一种动态掩码方案，对通用模型进行领域二次训练。我们分别对数据和模型训练都进行了优化，具体地：

（1）训练数据生成的创新

目前业界的开源数据集在构造流程上不够完善，同时领域内容不全或引用数据质量不高，都影响了模型的对齐效果。我们团队广泛收集了行业文档、社会报告、说明书、论文、新闻等多领域文档，构建的数据尽可能涵盖多模态理解的任务形式，如：纯文本问答、纯图片问答、图片结合文本问答以及跨文档总结等。此外，每条数据还标记了正确答案的溯源片段，用于 RAG 场景下的生成及溯源的诉求。然而，现阶段训练数据远不够，由于开源数据集的质量并不高，也并没有一套固定的上下文格式，因此团队自行搭建了一套用于数据获取及组织细化的语义分割的逻辑，具体构造数据流如下分为文档切分、问答对构造、数据合成、数据清洗、引入噪声、顺序增强等环节，其中噪声是通过在线检索的方式获取，这样获得的噪声片段更符合真实场景的分布。经过实验发现，训练数据的扩充以及范式的调整能为溯源准确率带来 20% 的绝对提升。

除此之外，我们还采用了数据扰动的增强方案。具体而言，通过精心设计的数据采样机制，在文档切分前的原始语料中保留了一定比例的 HTML 原生网页内容，这些未经清洗的原始数据天然携带丰富的噪声标签特征。在文本分块处理环节，我们还引入了可控的随机空格与换行符的插入，通过参数化调节特殊字符的分布概率，使模型在字符级表示层面获得鲁棒性特征提取能力。这种双重增强策略不仅有效模拟了真实场景下的非规范化文本数据分布，更在模型训练过程中形成了隐式的正则化效应，从而显著提升了模型对非规范文本输入的泛化能力。

（2）训练策略优化创新

传统 LLM 微调（SFT）方案使用损失掩码（loss mask）屏蔽系统（系统提示词+检索返回片段）和用户输入（用户查询 query），使模型专注学习回复的生成模式。然而，我们注意到在 RAG 生成场景，回复通常和一少部分的输入（即：正确答案溯源片段）具有强相关性。为了让模型显式学习 RAG 场景下原文-问题-回答的映射关系，我们在训练中对损失掩码进行调整：针对每条数据，我们将正确答案溯源片段和 query 的损失（loss）计入训练，保留非相关溯源片段的 loss mask。通过这种动态调整损失掩码的训练方式，模型学习理解并准确提取问题相关的关键信息，用于答案生成。实验表明，该方案显著提升了模型的多模态理解与关键信息提取能力，尤其是涉及多文档信息整合的场景。

强化微调阶段，小米大模型团队设计了基于多维度规则的奖励机制，包括细粒度证据索引、反思 token 以及输出格式等维度。借助 GRPO 等强化学习算法，依据模型输出的参考答案进行评分，进而动态调整模型参数，不断优化模型在思考、细粒度证据生成以及反思生成范式等方面的表现。强化微调较 SFT 版本满足率提升 12%，溯源准确率提升 22%。

Mi-BRAG 最终的溯源粒度可细化至 chunk 级，精细化溯源能力实现了知识与上下文的精准匹配，极大提升了回复内容的准确性和时效性。如下图所示每个答案都能可追溯，这不仅让用户得到的信息更加可靠、贴近需求，还促进了人机交互的自然流畅。强化的溯源能力提升了内容的可信度与多样性。通过追踪信息至源头，用户可以有效地筛选权威资料，减少错误信息传播，同时引入多样化的观点和数据，促进知识的全面性和客观性传达。综上所述，精细化的溯源机制是 Mi-BRAG 技术的核心优势之一，它不仅增强了用户体验，提高了信息质量，还为构建更加智能、可靠的 AI 交互体系奠定了坚实基础，是驱动我们技术不断进步、引领行业创新的关键力量。

Mi-BRAG 评估方法

SuperCLUE-RAG 评估结果：

第三方评测机构 SuperCLUE 通过单文档问答、多文档问答及搜索问答三大典型场景的综合评估，小米 2025 年 4 月在 SuperCLUE-RAG 生成能力评测中荣登榜首。这主要归功于 Mi-BRAG 在抗噪声数据处理与信息整合方面的创新数据构建方法，以及其突破性的模型训练范式。

（来源：第三方评测机构 SuperCLUE，链接：https://superclueai.com/）

ASQA 开源数据集评估结果：

ASQA 是一个长格式的事实类数据集，测试集中的每个问题，需要多个简短答案来涵盖对问题的不同解释。因此，模型要综合多份文件中的信息进行回答。小米团队测试了 Mi-BRAG 和业界大模型在 ASQA 测试集上的表现，评测过程主要关注多文档生成溯源准召率。（小米大模型基于 ALCE 中提出的评测流程[ALCE:Enabling Large Language Models to Generate Text with Citations https://arxiv.org/pdf/2305.14627]，制定统一的提示词，对 Mi-BRAG 和业界开源模型的溯源能力进行测试）

总结及未来探索

小米自研 Mi-BRAG 的主要核心技术策略围绕四大支柱展开，为 AI 助手的智能服务设立了新标杆。该技术不仅在架构设计层面实现了突破性创新，更在实际落地场景中展现出强大的灵活性与适应性。目前小米 Mi-BRAG 已在小爱同学个人信息问答，汽车问答助手，商品问答等场景落地，未来小米大模型团队将持续攻坚端侧算力优化与云边协同架构，内存压缩、功耗控制等关键技术领域实现突破；同时将深化多模态技术整合，打造覆盖文本、语音、视觉的全模态智能问答体系，持续拓展智能家居、汽车问答等应用场景，全面赋能小米“人车家全生态”战略体系。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业