支持私有化部署
AI知识库

53AI知识库

学习大模型的前沿技术与行业应用场景


字节的 AI Agent 效果如何?9 个实测案例

发布日期:2025-04-21 18:18:17 浏览次数: 2252 作者:刘言飞语
推荐语

字节跳动最新AI Agent产品Coze Space实测体验分享,探索其双模式和插件能力的独特优势。

核心内容:
1. Coze Space的双模式:探索模式与规划模式
2. 插件能力的扩展与应用实例
3. 9个实测任务的详细评分与过程回放

杨芳贤
53A创始人/腾讯云(TVP)最具价值专家
就在前几天,字节旗下的产品 扣子 Coze 也上线了自己的 Agent 产品,叫做 Coze Space 扣子空间。花了几天做测试,跟各位分享下体感。

我们又多了一个实习生
从使用体感来说,Coze Space 的使用方式和基础交互,跟别的 Agent 是差别不大的。
从细节来说,有这么几点差异。
第一,双模式。
Coze Space 可以选择使用两种模式。分别是探索模式和规划模式。
简单的理解是,探索模式是一站式帮你把任务搞定。而规划模式则要有中间步骤,你可以修改工作的内容,防止中间就跑偏了,浪费资源。
比如在这个工作流出现的时候,会让用户确认一步。

如果是规划模式,执行中间,Agent 也会反复确认,以便继续进行:



第二,插件能力。
Coze 扣子并不是字节新出的产品,扣子宇宙里,之前就有开发平台、罗盘和 Eino 框架。所以在这些积累之上,有一些 Agent 原本的能力,尤其是插件能力。
目前可添加的扩展包括高德地图、飞书生态、天气、图像、语音、文档等等。
这样用户可以自行选择使用的扩展插件,能力也就有增强了。
比如,可以调用高德地图的 API,就能得到地点的准确信息:
又或者直接生成一段短播客:

相较于单纯的打开浏览器获取信息,插件的能力会更加精确、成本更低。只是现在的插件还不算多,但也看到了未来的机会。
具体效果,后面会聊。

我让 扣子空间 完成了 9 个任务。给每个任务做出了个人很主观的评分。可以先说一下总分:

接下来是详细的任务情况。其中的链接有全部的过程回放,各位都可以复制粘贴到浏览器自行查看。以证明内容均是可靠真实的。


任务 1:

「设计一个网页,可以从调色盘上选择 4 种颜色,用户选择完之后,可以自动生成一张以 4 种颜色为主色调的图片」



这是我自己的一个痛点,用几个颜色生成一张壁纸。

Agent 不仅理解了我的意思,还非常体贴地给出了很多自定义的部分,还有预览图。每次生成也都是随机的。

再欣赏几个:

生成的图片

生成的图片

生成的图片


效果十分惊艳,是我试过的任务中最满意的。给出唯一一个满分 10 分。

大家也可以从链接试一下:reurl.cc/yRL31q

评分 :10/10

对话回放地址:space.coze.cn/s/JEIKYQAPeVI


任务 2:

「用高德地图来帮我规划一个去青海大环线的自驾游,完成一个网页,配备丰富的景点图片。」



这次的完成度挺高的,调用高德接口的威力就显现出来了。另外首页上的行程图是自己生成的,根据我说的出发地来设计的,这有点意外。

已经能到达可用的地步,同时美观度有相当的加分。

评分:8/10

网站地址:reurl.cc/gRGqqQ

对话回放链接:space.coze.cn/s/oDkZemIjWM8


任务 3:

「帮我生成一期 10 分钟的播客,讲述今天的美股要闻,并且模拟两个人的声音对话,有一些观点对立」


这属于扩展插件的简单体验。

可以直接生成一段内容。美股的信息总结得还可以,听感也还行,多数语句能够以假乱真。只是本来要求的对话,实现得不太好,还是一个人在念稿子。

另外,其它试用音频的操作都不是很成功,看来调用插件还不稳定。

评分:7/10

对话回放地址:space.coze.cn/s/0tgECMGcdE4


任务 4:

「制作一份详尽的、可读性强的中文互联网的播客行研报告,以 PPT 形式展示。」


怎么说呢。依赖于独立生成的排版和图片,PPT 的效果乍一看还行,但是内容有点拉胯,不太可用。要用的话,只能说提供了一个模板吧。

评分:5/10

对话回放地址:space.coze.cn/s/1oStTC8nfEk


任务 5 :

「我是半拿铁的主播刘飞,我要做一期播客的逐字稿,主题是博世的历史故事,帮助我整理一份详尽的稿件,我来做录制。」

这个不算是现在 Agent 的长项。在用过几个 Deep Research 之后,深刻体会到 AI 协助做复杂信息的处理的快乐。

而 Agent 的最大优势还是在完成一些单纯信息处理之外的工作。

评分:4/10

对话回放地址:space.coze.cn/s/RXpjjSqGsnY



任务 6:

「完成一个 2048 游戏,游戏里的美术设计都使用合乎逻辑的海贼王角色和海贼王的元素。」

这个效果也很意外,完全按照要求完成了。并且能玩。大家可以体验一下也。

一句话就能做个小游戏,时代真的变了...

哦有个小问题,乌索普用的头像是错的,用成了路飞。扣分。

评分:9/10

玩游戏的地址:reurl.cc/RYqZj6

对话回放地址:space.coze.cn/s/PlWwe7F-XE0


任务 7:

「设计一个包含了 10 个题目的心理测试程序,测试结果为海贼王里的几个性格鲜明的特定角色,看用户跟哪个角色的性格最接近。题目是单选题,角色也由你来制定。网页里要设计优良,最后的角色有头像。评测结束页面,要有语音介绍一下,用户的性格特色」

也是一句话生成的游戏,完成度也可以。尤其最后结果页面的效果,是真的不错。

本来想测试扩展插件里的音频生成,发现调用效果有问题,不出声音。

评分:8/10

测试网站地址:reurl.cc/pa3kGZ

对话回放地址:space.coze.cn/s/k1Xrr6rqG90


任务 8:

根据飞书文档里我的文章的风格,帮我写一篇在 2000 字左右的公众号文章,并且起一个有意思的标题」


可以看得出来,内容的处理上比较规规矩矩。扣子空间的优势在于,视觉的呈现效果好了不少。其中的格式排版,以及那些小图标,都做得不错。

评分:5/10 

对话回放地址:space.coze.cn/s/Wp3B7yTV23E


任务 9:

「我是产品经理和播客主播刘飞,帮我制作一个内容丰富的个人主页。」

跟前面的播客报告一样,亮点是做的排版,结构,还有「自作主张」的配图和表格。但问题也类似,内容只是盲目填充,缺乏一定的逻辑。

评分:5/10

对话回放地址:space.coze.cn/s/XkTYbiKa-XI



——


最后,再说几句。

由于有新的扩展,这次的可玩性又有了进一步的提升。像生成壁纸那种小工具,效果惊艳。我们都可以用简便的方法去完成一个小工具、小游戏,甚至不需要看到代码页面。

从稳定性而言,作为字节大厂出品,能明显感觉到不会轻易崩掉。不过,Agent 的普遍问题依然存在,即输出的效果不够稳定,也会存在各种幻觉,结果里逻辑性欠佳。

乐观的方面在于,扣子空间的使用场景再次拓展了。大厂入局,也是一个里程碑。大家可以用更强的算力、更低的成本去体验 Agent 的场景。用户提供的真实 case 本身也是一种当下快速创新阶段的竞争力。

这么看,我们离贾维斯,也越来越近了。

53AI,企业落地大模型首选服务商

产品:场景落地咨询+大模型应用平台+行业解决方案

承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业

联系我们

售前咨询
186 6662 7370
预约演示
185 8882 0121

微信扫码

添加专属顾问

回到顶部

加载中...

扫码咨询