微信扫码
添加专属顾问
我要投稿
探索小米如何通过AI技术革新文档问答和知识管理。 核心内容: 1. Mi-BRAG智能引擎的核心技术体系及其应用场景 2. RAG技术在解决大模型挑战中的应用与优势 3. 小米自研RAG框架的创新探索和业务场景实践
导读 当产品功能越复杂、说明书越来越厚,AI 能否精准解析用户问题并即时给出答案?当相关领域文档越积越多,AI 能否精确定位跨文档的核心内容并进行提炼?在大模型时代,如何突破通用知识的局限,构建兼具专业性与个性化的知识库问答系统?基于这些行业痛点,小米创新研发 Mi-BRAG 知识库问答框架,该框架通过四大核心技术体系重构知识处理范式,已在公司多个场景中落地应用,包括小爱同学的个人信息问答、汽车问答助手、商品问答等。
1. 为什么要做 RAG?
2. 小米自研 RAG 的探索与创新
3. Mi-BRAG 评估方法
4. 总结及未来探索
分享嘉宾|彭力
出品社区|DataFun
01
为什么要做 RAG?
小米自研 RAG 的探索与创新
小米拥有大量特色的业务和丰富的产品形态,这些都需公司内部协作效率提升、产品交互智能化、手机及汽车服务效率提升的技术和能力。在场景上 TOC(小爱个人信息问答、智能文档问答等)和 TOB(集团内部提效:新产品研发、员工助手、智能客服)等大量应用场景亟须自研的 RAG 框架提供领域安全高可靠的智能知识中枢提升产品的智能化及用户体验。
小米大模型团队认为,一个完整的知识问答框架应该包含如上图所示的四个部分:知识库创建(B)、知识检索(R)、知识增强(A)和回复生成(G)。而知识库创建(B)模块其实特别重要,对问答效果会产生至关重要的影响,不应被忽视,所以小米大模型团队将框架命名为 Mi-BRAG。Mi-BRAG 支持多种格式文档解析和图文混合的多模态问答,为用户提供更多应用选项。
在 RAG 的基础框架下,自研框架 Mi-BRAG 的技术创新主要分布在:
知识库创建(B):跨模态的知识融合及构建“金字塔型”动态知识体系等
知识检索与增强(R-A):用户 Query 理解的增强,多维语义增强等
回复生成(G):为知识注入场景定制模型,强化无关信息的拒答、精细化的溯源的能力。
1. Build: 高质量的知识库构建
(1)金字塔知识体系构建
构建金字塔知识体系,就像为知识库安装了智能导航,既能精准定位具体段落,又能快速把握全局脉络。
(2)跨模态的知识融合
目前大多数 RAG 框架中对于图片知识的理解是通过 OCR 来实现图片内容的读取,但是这样的问题在于会缺失对图片内容的理解同时不能很好利用图片上下文的一些信息。小米大模型团队通过多模态大模型的语义对齐来达到跨模态的知识融合,实现多模态的知识理解。为了达成这一目标,首先使用图文双模态的通道语义理解,让系统具备跨模态的认知能力。然后通过强化后的多模态模型来为图片生成具有场景化丰富的语义的文本描述。最后把图文信息转化为统一的语义向量,建立文本至图片关联映射,当用户搜索图表内容时,不仅能够找到文字描述,还能精确关联到具体的图片、表格。让知识检索突破模态壁垒,实现 1+1>2 的融合价值。同样的方法可以应用到其它模态达到多种模态贯通的目的。目前在相关图表问答测试集上,效果远超竞品。
2. Retrival: 用户 Query 的理解与增强
(1)多维语义增强,离线结合更专业化
精细化的 PDF 解析方案可以对文档元素的深度理解。通过支持更加多样化的 Chunk 构建方式,可以进一步增强 RAG 的专业化水平。在优化解析精度和细腻度的基础上。团队通过多维度语义索引,突破单一 embedding 或关键词匹配的模式,采用多维度索引为每个知识片段生成多维度语义标签。当文档进入系统时采用:智能提炼渐进式内容摘要、生成关联性假设问题、提取文本所属关键词、多视角内容改写等手段增强知识提升 Chunk 的表征能力。
(2)用户 Query 理解的增强
检索流程中对用户问题提炼关键信息与深度理解是提升检索高相关内容的关键,也是高质量答案的基础。传统的 Query 理解主要依赖于规则驱动与浅层语义分析,通过归一化、拼写纠错、冗余信息删减等表层处理手段优化输入质量。这类方法存在语义理解深度不足、上下文感知能力缺失、语义鸿沟等局限性。Retirval 过程中向量检索通常依靠查询(Query)与文档(Doc)之间的相似程度。然而,该方法面临的挑战是:查询与文档往往处于不同的语义空间。
传统 RAG 检索大多由检索到生成,启发性的假设文档 &claim 方法在检索前增加了“生成—>分解—>过滤”的预处理阶段,形成了“生成辅助检索,检索再辅助生成”的闭环。该方法增强了 Query 理解,促使查询与文档在语义空间的深度对齐,有效规避语义偏差干扰,全方位提升检索准确率,主要包括如下三个阶段:
生成驱动的语义空间对齐:首先大模型根据原始 Query 生成具有启发性的假设性文档,这一过程能够弥补查询和文档的语义偏差,解决了传统方法中因查询表达模糊或者简短导致语义稀疏的问题;
结构化分解的检索目标:其次,基于本文逻辑划分 claim 后,为每个 claim 定制一个专用于验证性搜索的子查询,这一过程将原始查询转化为多个细粒度的检索目标,为复杂查询任务提供更灵活的中间表示(<claim>、<query>);
相关性驱动的动态增强:最后,将与原始 Query 高度相关的子查询(<search>True)及其 claim 整合,不相关的子查询(<search>False)则过滤,进而对向量通道中的 Query 进行增强,赋予 Query 更强大且精准的语义内涵,这一过程筛选出高度相关的片段作为增强的依据,避免引入生成的噪声,平衡了语义扩展与精准性。
3. Generation: 鲁棒的抗噪声生成模型与精细化的溯源
Mi-BRAG 支持多种格式文档解析和图文混合的多模态问答,为用户提供更多应用选项。为了提升模型的多模态上下文理解和关键信息提取能力,我们引入一种动态掩码方案,对通用模型进行领域二次训练。我们分别对数据和模型训练都进行了优化,具体地:
(1)训练数据生成的创新
目前业界的开源数据集在构造流程上不够完善,同时领域内容不全或引用数据质量不高,都影响了模型的对齐效果。我们团队广泛收集了行业文档、社会报告、说明书、论文、新闻等多领域文档,构建的数据尽可能涵盖多模态理解的任务形式,如:纯文本问答、纯图片问答、图片结合文本问答以及跨文档总结等。此外,每条数据还标记了正确答案的溯源片段,用于 RAG 场景下的生成及溯源的诉求。然而,现阶段训练数据远不够,由于开源数据集的质量并不高,也并没有一套固定的上下文格式,因此团队自行搭建了一套用于数据获取及组织细化的语义分割的逻辑,具体构造数据流如下分为文档切分、问答对构造、数据合成、数据清洗、引入噪声、顺序增强等环节,其中噪声是通过在线检索的方式获取,这样获得的噪声片段更符合真实场景的分布。经过实验发现,训练数据的扩充以及范式的调整能为溯源准确率带来 20% 的绝对提升。
除此之外,我们还采用了数据扰动的增强方案。具体而言,通过精心设计的数据采样机制,在文档切分前的原始语料中保留了一定比例的 HTML 原生网页内容,这些未经清洗的原始数据天然携带丰富的噪声标签特征。在文本分块处理环节,我们还引入了可控的随机空格与换行符的插入,通过参数化调节特殊字符的分布概率,使模型在字符级表示层面获得鲁棒性特征提取能力。这种双重增强策略不仅有效模拟了真实场景下的非规范化文本数据分布,更在模型训练过程中形成了隐式的正则化效应,从而显著提升了模型对非规范文本输入的泛化能力。
(2)训练策略优化创新
传统 LLM 微调(SFT)方案使用损失掩码(loss mask)屏蔽系统(系统提示词+检索返回片段)和用户输入(用户查询 query),使模型专注学习回复的生成模式。然而,我们注意到在 RAG 生成场景,回复通常和一少部分的输入(即:正确答案溯源片段)具有强相关性。为了让模型显式学习 RAG 场景下原文-问题-回答的映射关系,我们在训练中对损失掩码进行调整:针对每条数据,我们将正确答案溯源片段和 query 的损失(loss)计入训练,保留非相关溯源片段的 loss mask。通过这种动态调整损失掩码的训练方式,模型学习理解并准确提取问题相关的关键信息,用于答案生成。实验表明,该方案显著提升了模型的多模态理解与关键信息提取能力,尤其是涉及多文档信息整合的场景。
强化微调阶段,小米大模型团队设计了基于多维度规则的奖励机制,包括细粒度证据索引、反思 token 以及输出格式等维度。借助 GRPO 等强化学习算法,依据模型输出的参考答案进行评分,进而动态调整模型参数,不断优化模型在思考、细粒度证据生成以及反思生成范式等方面的表现。强化微调较 SFT 版本满足率提升 12%,溯源准确率提升 22%。
Mi-BRAG 最终的溯源粒度可细化至 chunk 级,精细化溯源能力实现了知识与上下文的精准匹配,极大提升了回复内容的准确性和时效性。如下图所示每个答案都能可追溯,这不仅让用户得到的信息更加可靠、贴近需求,还促进了人机交互的自然流畅。强化的溯源能力提升了内容的可信度与多样性。通过追踪信息至源头,用户可以有效地筛选权威资料,减少错误信息传播,同时引入多样化的观点和数据,促进知识的全面性和客观性传达。综上所述,精细化的溯源机制是 Mi-BRAG 技术的核心优势之一,它不仅增强了用户体验,提高了信息质量,还为构建更加智能、可靠的 AI 交互体系奠定了坚实基础,是驱动我们技术不断进步、引领行业创新的关键力量。
03
04
总结及未来探索
小米自研 Mi-BRAG 的主要核心技术策略围绕四大支柱展开,为 AI 助手的智能服务设立了新标杆。该技术不仅在架构设计层面实现了突破性创新,更在实际落地场景中展现出强大的灵活性与适应性。目前小米 Mi-BRAG 已在小爱同学个人信息问答,汽车问答助手,商品问答等场景落地,未来小米大模型团队将持续攻坚端侧算力优化与云边协同架构,内存压缩、功耗控制等关键技术领域实现突破;同时将深化多模态技术整合,打造覆盖文本、语音、视觉的全模态智能问答体系,持续拓展智能家居、汽车问答等应用场景,全面赋能小米“人车家全生态”战略体系。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2024-10-27
2024-09-04
2024-05-05
2024-07-18
2024-06-20
2024-06-13
2024-07-09
2024-07-09
2024-05-19
2024-07-07
2025-05-23
2025-05-16
2025-05-15
2025-05-14
2025-05-14
2025-05-13
2025-05-11
2025-05-08