微信扫码
添加专属顾问
我要投稿
深入解析AI Agent产品开发范式的演进历程,从野蛮生长到精耕细作的系统化工程。 核心内容: 1. AI Agent开发初期的好奇心驱动和娱乐化应用 2. 探索期Agent的实用性提升与多步骤任务流发展 3. 爆发期AI Agent开发新范式下的全生命周期管理
得益于推理模型的诞生及能力性能提升,Agent 解决问题的能力进一步增强。扣子作为一个专注 Agent 的产品, 早在2024年2月上线国内版本。在短短的一年多时间里,扣子见证了 AI Agent 开发范式的持续演进迭代,从野蛮生长的状态快速进化成为了精耕细作的系统化工程方法。扣子空间(space.coze.cn),也正是在这样的工程方法加持下快速诞生的新产品。
本文将带领大家,从扣子的视角,看 AI Agent 产品开发范式演进。
AI Agent 开发范式演进的三重阶段
初期:好奇心驱动下的野蛮生长
关键词:娱乐化、碎片化、实验性
自2023年大模型爆火后,“Agent”、“智能体”作为新鲜事物, 快速引起了大家强烈的好奇心。如何开发智能体的话题,成为了科技博主的流量密码。由于泛娱乐的场景最能吸引 C 端用户的眼球,所以这个阶段的智能体很多以社交、娱乐、个人提效作为切入点,各方脑洞大开,涌现了很多创意十足的智能体,譬如:角色扮演的陪聊、星座占卜、游戏NPC、段子生成等等;
在扣子开发平台(coze.cn/studio)的低代码环境下, 通过 Prompt Engineering + 插件 + LLM 就能在几分钟内快速“捏”出一个智能体,使得智能体的搭建快速渗透到各类用户群体。但在这个阶段,由于大模型存在幻觉,智能体的输出存在随机性、不可控的问题,无法很好地承载严肃场景的需求。
探索期:严肃场景下的流程革命
关键词:Workflow 化、场景闭环、稳定性
从 2024 年中开始,扣子平台上越来越多的开发者对严肃场景有了更强烈的诉求,希望利用 Agent 真正解决一些实际工作和业务中的具体问题。这个阶段的开发者进入了探索期,开始探索 Agent 的实用性, Agent 从“好玩”向“好用”迈进。
在这样的需求下,Agent 开发范式也做了进一步升级,从单轮对话升级到多步骤任务流,如一些智能客服的场景;从单人构建 Agent 升级到团队协作构建 Agent;而在 Agent 形态上也更趋多元化,从简单的 ChatBot 到更丰富的 GUI/LUI 应用形态。
在技术特征上,基于 LLM 的意图识别和流程控制成为主流,同时因为交互形态的升级,需要一套 UI Builder 组件,高效的构建产品界面和交互。
爆发期:系统工程的精耕时代 ,诞生 AI Agent 开发新范式
关键词:全生命周期
2025 年伊始,AI Agent 真正进入爆发期,Agent 的热度进一步增加。随着 Agent 能解决的问题越来越多和越来越复杂。Agent 的开发工作真正驶向深水区,不再只是搭建,而是要持续的优化、迭代和全生命周期运营。
一个 Agent 的全生命周期,分为这四个阶段:
Agent 开发:包括 Prompt Engineering、Workflow 编排、知识库搭建、MCP,或者完全基于 Full Code 构建。
效果评测:开发完成后,要通过评测来量化 Agent 效果,看 Agent 是否达到一个准出的标准。准出后 Agent 发布上线,获得线上流量。
线上观测:Agent 在线上运行后,我们要持续不断的对线上运行情况保持关注,将线上数据采集回流下来,并通过一些指标看板、Query 分析等了解整体,通过 Trace 等发现 Bad Case 和定位问题,给后续迭代调优一些输入。
效果优化:基于线上的 Bad Case 做下钻分析后,引导对 Agent 做进一步的迭代优化,比如 Prompt 的优化,比如将 Trace 经过人工清洗标注后沉淀为训练集,做模型 SFT。
AI Agent 开发新范式
在新的开发范式下,开发者的精力将会从过去的侧重开发转向“开发+调优”并行投入的模式,本文着重分享一下效果评测、线上观测、效果优化。
效果评测
为了做好效果评测,需要构建评测体系,就是让 AI Agent 效果可量化。比如,在上学期间,如何评价每个学生学的好与不好,如何量化每个学生的能力?答案是:考试。类似的, AI Agent 的效果评测也可以理解为考试,考试分为三个部分组成:考卷、学生答卷、老师阅卷。
Agent 的评测也对应分为三部分组成:评测集、评估器、评测执行。
评测集即为考卷,包括Query、参考答案(可选)等组成;评测执行即考试,Agent 根据评测集的 Query 做执行,拿到实际输出;
评估器即为阅卷老师,在评估阶段,最重要的是评估器,评估器有多种方式,一般来说分为人评、代码评估、大模型评估(LLM as a Judge)。人评相对准确率会高一些,但效率和成本也会更高;代码评估更适合一些基于规则可以用代码写出来的评估;大模型评估效率最高,但需要写一个高质量的 Prompt 。
测评执行即是阅卷过程,阅卷老师根据评测集的 Query、参考答案(可选)、Agent 的实际输出,再结合评测标准,判断 Agent 的输出是否符合预期,并给出分数。
Agent 评测并不仅仅是最后端到端的评测,应该贯穿到 Agent 开发的各个阶段,从模型选型,到原型验证,到迭代开发、生产部署等等阶段。
线上观测
一般来说 可观测包括如下三部分组成, Trace、Metrics、Analysis。
AI Agent 的运行过程中会产生运行数据,这些运行数据可以基于统一协议,如 Open Telemetry,上报到平台,沉淀为Trace。一条 Trace 就是一次 Query&Answer的一轮交互。每条 Trace 里又包含多种 span 组成,即节点,如模型调用的 span、插件执行的 span、retrieve 的 span 等等。基于 Trace,我们又可以通过 ETL 进一步清洗为 Metrics,并通过指标看板的形式展现给消费者,如 TTFT、TPOT、Token 消耗、Score,等等。最后基于线上 Trace 和指标,我们又可以进一步下钻分析 Bad Case、分析 Query 分布、给出线上运行预警,等等。
AI Agent 在线上运行过程中会遇到各种各样的问题,比如幻觉、不符合预期的输出、安全合规问题、多轮交互中的复杂度问题等等。针对这些问题,都需要有一个可观测平台来帮助开发者发现问题,定位问题。
效果优化
而经过评测和观测,下一步就是如何基于线上数据构建 AI Agent 效果优化的数据飞轮。我这里以模型优化为例子讲述数据飞轮的构建,线上 Trace 数据经过上报后并经过评估,区分为 Good Case 和 Bad Case,Good Case 可以直接沉淀为训练集,并作为模型蒸馏 或者 self-training的训练数据进行 sft。而 Bad Case 可以经过人工标注后生成 Ground Truth,并沉淀为模型微调的训练集,对模型进行定向效果纠偏。模型训练完成并准出后,部署到线上,再进一步收集数据,进入下一个迭代循环。
关于扣子罗盘
扣子在今年4月份进行了品牌升级,同时推出了产品矩阵,分别为扣子空间、开发平台、扣子罗盘及 Eino 框架。
其中扣子罗盘的定位是服务于任何搭建形式的 Agent 调优,侧重在 Agent 评测、观测、效果调优、数据飞轮等能力建设,帮助低代码开发者和全代码开发者持续迭代运行 Agent。
字节的两个大家比较熟悉的 AI 产品扣子空间和 Trae,也都是基于扣子罗盘构建和调优,正是因为有了罗盘的助力,才能让两个产品快速迭代、快速优化。
AI Agent 的未来趋势
对于未来 AI Agent 的趋势,我们从技术方向和产业趋势两方面看。
技术方向上:
从“Single Agent” 到 “Multi Agent”,通过 Multi Agent 协同的方式,实现任务拆解,让不同的子 Agent 协同解决一个复杂的任务。
从“流程自动化”到“自主Agent的跨越”,面向无固化流程的场景,需要由 AI 主导自主决策,自己规划、调整和执行。
从“指令驱动”到“目标驱动” ,未来的 Agent 更偏目标驱动,只需要给出一个你想要的目标,由 Agent 自行推理、分析和拆解。
多模态能力融合(语音、视觉、具身交互),Agent 的长远交互形态一定不仅局限于文字,随着多模态能力的融合,能更进一步扩充 Agent 的能力边界,甚至跟物理世界进行交互。
产业挑战上:
随着开发范式的演进,对各种平台、框架也提出了更新更高的要求,平台如何快速跟进和适配,帮助开发者更加高效的搭建和迭代 Agent,是相关平台需要考虑的。
而随着 AI Agent 的发展,未来一定是跨平台、跨领域、多 Agent 协同解决问题的形态,在 Agent 通信协议上,A2A 已经给出了解法,而Agent 更大范围的生态急需建设,是否有一个中心化的 Agent Marketplace,或者去中心化通过统一协议各自交互,也都是我们要考虑的问题。
总结
从应用场景,AI Agent 已经完成了从玩具到工具的升级,场景深度与工程能力得到了双重进化,开发范式也从开发为主转向“开发+调优”并重的模式。通过扣子罗盘,我们可以快速演进到 “开发 - 评测 - 观测 - 优化” 的全生命周期管理范式。Prompt 和模型双数据飞轮持续迭代的方法论,也即将成为 AI Agent 领域的新趋势。
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-27
解锁记忆的力量:Coze智能体的『长期记忆』如何改变交互体验
2025-05-27
Coze 智能体文件盒子:一键总结 PDF,让你告别读长书烦恼!
2025-05-27
解锁AI魔法:Coze平台“HTTP请求”组件让你秒变技术大神!
2025-05-27
1分钟生成专业调查问卷?Coze的这个插件太香了!
2025-05-27
解锁Coze智能体的“文件盒子”:让你的AI助手秒变知识管家!
2025-05-22
为什么别人的智能体更智能?偷偷加装了这条“AI流水线”
2025-05-14
扣子(coze)知识库的两个坑
2025-05-09
coze工作流生成高质量证件照
2024-07-18
2024-07-18
2024-07-18
2024-07-31
2024-05-09
2024-05-09
2024-08-06
2024-06-08
2024-07-07
2024-08-06