我要投稿

从扣子，看 AI Agent 产品开发范式演进

发布日期：2025-05-26 20:24:58 浏览次数： 1686

作者：扣子Coze

微信搜一搜，关注“扣子Coze”

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

得益于推理模型的诞生及能力性能提升，Agent 解决问题的能力进一步增强。扣子作为一个专注 Agent 的产品，早在2024年2月上线国内版本。在短短的一年多时间里，扣子见证了 AI Agent 开发范式的持续演进迭代，从野蛮生长的状态快速进化成为了精耕细作的系统化工程方法。扣子空间(space.coze.cn)，也正是在这样的工程方法加持下快速诞生的新产品。

本文将带领大家，从扣子的视角，看 AI Agent 产品开发范式演进。

AI Agent 开发范式演进的三重阶段

初期：好奇心驱动下的野蛮生长

关键词：娱乐化、碎片化、实验性

自2023年大模型爆火后，“Agent”、“智能体”作为新鲜事物，快速引起了大家强烈的好奇心。如何开发智能体的话题，成为了科技博主的流量密码。由于泛娱乐的场景最能吸引 C 端用户的眼球，所以这个阶段的智能体很多以社交、娱乐、个人提效作为切入点，各方脑洞大开，涌现了很多创意十足的智能体，譬如：角色扮演的陪聊、星座占卜、游戏NPC、段子生成等等；

在扣子开发平台（coze.cn/studio）的低代码环境下，通过 Prompt Engineering + 插件 + LLM 就能在几分钟内快速“捏”出一个智能体，使得智能体的搭建快速渗透到各类用户群体。但在这个阶段，由于大模型存在幻觉，智能体的输出存在随机性、不可控的问题，无法很好地承载严肃场景的需求。

探索期：严肃场景下的流程革命

关键词：Workflow 化、场景闭环、稳定性

从 2024 年中开始，扣子平台上越来越多的开发者对严肃场景有了更强烈的诉求，希望利用 Agent 真正解决一些实际工作和业务中的具体问题。这个阶段的开发者进入了探索期，开始探索 Agent 的实用性， Agent 从“好玩”向“好用”迈进。

在这样的需求下，Agent 开发范式也做了进一步升级，从单轮对话升级到多步骤任务流，如一些智能客服的场景；从单人构建 Agent 升级到团队协作构建 Agent；而在 Agent 形态上也更趋多元化，从简单的 ChatBot 到更丰富的 GUI/LUI 应用形态。

在技术特征上，基于 LLM 的意图识别和流程控制成为主流，同时因为交互形态的升级，需要一套 UI Builder 组件，高效的构建产品界面和交互。

爆发期：系统工程的精耕时代，诞生 AI Agent 开发新范式

关键词：全生命周期

2025 年伊始，AI Agent 真正进入爆发期，Agent 的热度进一步增加。随着 Agent 能解决的问题越来越多和越来越复杂。Agent 的开发工作真正驶向深水区，不再只是搭建，而是要持续的优化、迭代和全生命周期运营。

一个 Agent 的全生命周期，分为这四个阶段：

Agent 开发：包括 Prompt Engineering、Workflow 编排、知识库搭建、MCP，或者完全基于 Full Code 构建。

效果评测：开发完成后，要通过评测来量化 Agent 效果，看 Agent 是否达到一个准出的标准。准出后 Agent 发布上线，获得线上流量。

线上观测：Agent 在线上运行后，我们要持续不断的对线上运行情况保持关注，将线上数据采集回流下来，并通过一些指标看板、Query 分析等了解整体，通过 Trace 等发现 Bad Case 和定位问题，给后续迭代调优一些输入。

效果优化：基于线上的 Bad Case 做下钻分析后，引导对 Agent 做进一步的迭代优化，比如 Prompt 的优化，比如将 Trace 经过人工清洗标注后沉淀为训练集，做模型 SFT。

AI Agent 开发新范式

在新的开发范式下，开发者的精力将会从过去的侧重开发转向“开发+调优”并行投入的模式，本文着重分享一下效果评测、线上观测、效果优化。

效果评测

为了做好效果评测，需要构建评测体系，就是让 AI Agent 效果可量化。比如，在上学期间，如何评价每个学生学的好与不好，如何量化每个学生的能力？答案是：考试。类似的， AI Agent 的效果评测也可以理解为考试，考试分为三个部分组成：考卷、学生答卷、老师阅卷。

Agent 的评测也对应分为三部分组成：评测集、评估器、评测执行。

评测集即为考卷，包括Query、参考答案（可选）等组成；评测执行即考试，Agent 根据评测集的 Query 做执行，拿到实际输出；

评估器即为阅卷老师，在评估阶段，最重要的是评估器，评估器有多种方式，一般来说分为人评、代码评估、大模型评估（LLM as a Judge）。人评相对准确率会高一些，但效率和成本也会更高；代码评估更适合一些基于规则可以用代码写出来的评估；大模型评估效率最高，但需要写一个高质量的 Prompt 。

测评执行即是阅卷过程，阅卷老师根据评测集的 Query、参考答案（可选）、Agent 的实际输出，再结合评测标准，判断 Agent 的输出是否符合预期，并给出分数。

Agent 评测并不仅仅是最后端到端的评测，应该贯穿到 Agent 开发的各个阶段，从模型选型，到原型验证，到迭代开发、生产部署等等阶段。

线上观测

一般来说可观测包括如下三部分组成， Trace、Metrics、Analysis。

AI Agent 的运行过程中会产生运行数据，这些运行数据可以基于统一协议，如 Open Telemetry，上报到平台，沉淀为Trace。一条 Trace 就是一次 Query&Answer的一轮交互。每条 Trace 里又包含多种 span 组成，即节点，如模型调用的 span、插件执行的 span、retrieve 的 span 等等。基于 Trace，我们又可以通过 ETL 进一步清洗为 Metrics，并通过指标看板的形式展现给消费者，如 TTFT、TPOT、Token 消耗、Score，等等。最后基于线上 Trace 和指标，我们又可以进一步下钻分析 Bad Case、分析 Query 分布、给出线上运行预警，等等。

AI Agent 在线上运行过程中会遇到各种各样的问题，比如幻觉、不符合预期的输出、安全合规问题、多轮交互中的复杂度问题等等。针对这些问题，都需要有一个可观测平台来帮助开发者发现问题，定位问题。

效果优化

而经过评测和观测，下一步就是如何基于线上数据构建 AI Agent 效果优化的数据飞轮。我这里以模型优化为例子讲述数据飞轮的构建，线上 Trace 数据经过上报后并经过评估，区分为 Good Case 和 Bad Case，Good Case 可以直接沉淀为训练集，并作为模型蒸馏或者 self-training的训练数据进行 sft。而 Bad Case 可以经过人工标注后生成 Ground Truth，并沉淀为模型微调的训练集，对模型进行定向效果纠偏。模型训练完成并准出后，部署到线上，再进一步收集数据，进入下一个迭代循环。

关于扣子罗盘

扣子在今年4月份进行了品牌升级，同时推出了产品矩阵，分别为扣子空间、开发平台、扣子罗盘及 Eino 框架。

其中扣子罗盘的定位是服务于任何搭建形式的 Agent 调优，侧重在 Agent 评测、观测、效果调优、数据飞轮等能力建设，帮助低代码开发者和全代码开发者持续迭代运行 Agent。

字节的两个大家比较熟悉的 AI 产品扣子空间和 Trae，也都是基于扣子罗盘构建和调优，正是因为有了罗盘的助力，才能让两个产品快速迭代、快速优化。

AI Agent 的未来趋势

对于未来 AI Agent 的趋势，我们从技术方向和产业趋势两方面看。

技术方向上：

从“Single Agent” 到 “Multi Agent”，通过 Multi Agent 协同的方式，实现任务拆解，让不同的子 Agent 协同解决一个复杂的任务。

从“流程自动化”到“自主Agent的跨越”，面向无固化流程的场景，需要由 AI 主导自主决策，自己规划、调整和执行。

从“指令驱动”到“目标驱动” ，未来的 Agent 更偏目标驱动，只需要给出一个你想要的目标，由 Agent 自行推理、分析和拆解。

多模态能力融合（语音、视觉、具身交互），Agent 的长远交互形态一定不仅局限于文字，随着多模态能力的融合，能更进一步扩充 Agent 的能力边界，甚至跟物理世界进行交互。

产业挑战上：

随着开发范式的演进，对各种平台、框架也提出了更新更高的要求，平台如何快速跟进和适配，帮助开发者更加高效的搭建和迭代 Agent，是相关平台需要考虑的。

而随着 AI Agent 的发展，未来一定是跨平台、跨领域、多 Agent 协同解决问题的形态，在 Agent 通信协议上，A2A 已经给出了解法，而Agent 更大范围的生态急需建设，是否有一个中心化的 Agent Marketplace，或者去中心化通过统一协议各自交互，也都是我们要考虑的问题。

总结

从应用场景，AI Agent 已经完成了从玩具到工具的升级，场景深度与工程能力得到了双重进化，开发范式也从开发为主转向“开发+调优”并重的模式。通过扣子罗盘，我们可以快速演进到 “开发 - 评测 - 观测 - 优化” 的全生命周期管理范式。Prompt 和模型双数据飞轮持续迭代的方法论，也即将成为 AI Agent 领域的新趋势。

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业