微信扫码
添加专属顾问
我要投稿
OpenAI发布全新深度搜索评测基准BrowseComp,挑战AI在互联网上深度挖掘信息的能力。 核心内容: 1. BrowseComp的设计理念与挑战性 2. 基准测试中AI与人类的表现对比 3. OpenAI开源BrowseComp,推动AI智能体发展
OpenAI 昨日除发布了个人记忆功能外(谜底揭晓!ChatGPT记忆功能全面升级,您的专属ChatGPT上线),还宣布推出并开源 BrowseComp,一项全新且极具挑战性的基准测试。该基准旨在精准衡量智能体在互联网上定位极端难以查找信息的核心能力,以此应对当前评估方法的显著不足。
随着 AI 智能体日益依赖网络浏览获取知识,评估其深度挖掘和综合信息的能力变得至关重要。现有基准(如 SimpleQA)已被具备快速浏览工具的先进模型(如带浏览功能的 GPT-4o)轻松搞定,无法有效衡量 AI 是否具备解决复杂、需要持久探索和跨多网站信息整合的现实挑战。
BrowseComp 正是为解决这一关键差距而设计。它包含 1,266 个精心构建的高难度问题,核心特点是“难于查找,易于验证”。问题要求简短、明确、有据可查的答案,并刻意设计得无法通过简单搜索轻易获得,区别于简单的信息检索,它迫使 AI 智能体必须具备卓越的事实推理、检索浏览分析的能力。如:
请识别一篇在 2023 年 6 月前发表的研究出版物的标题,该出版物提到了文化传统、科学过程和烹饪创新。该出版物由三名作者合著,其中一名是西孟加拉邦的助理教授,另一名拥有博士学位。
答案:面包制作的基础:面包的科学
90 年代,一所新学校由合并一所女子学校和一所男子学校而成,形成一所男女同校的学校,位于一个可追溯到 19 世纪后半叶的历史小镇。这所新学校被赋予了一个拉丁名字。这所女子学校的名称是什么?
答案: 慈善修女院
该基准问题主题的分布如下:
该基准的挑战性极高:
测试结果清晰地揭示了能力差异:虽然标准模型表现不佳,但 OpenAI 专为深度研究和持久网络浏览训练的 Deep Research 智能体表现突出,准确率达到 51.5%。这有力证明了 BrowseComp 在区分 AI 真实深度信息检索能力方面的有效性。研究同时表明,增加推理计算资源能显著提升性能。
OpenAI 强调,通过 开源 BrowseComp,旨在推动研究社区开发更强大、更可靠、更值得信赖的 AI 智能体。虽然 BrowseComp 聚焦于特定核心能力,但它为衡量 AI 在信息迷宫中的关键技能(持久性与创造力)提供了一个不可或缺且易于评估的工具。
BrowseComp 现已通过 OpenAI 的 simple-evals GitHub 仓库向公众开放。OpenAI 诚邀全球研究者利用此基准进行评估与创新,并期待反馈。为维护基准的长期有效性,强烈建议不要在网络上公开传播数据集中的具体示例。这一基准的推出不仅能够对齐评测标准,更重要的是刺激各大厂商在这一领域的投入,深度搜索将迎来“超级时刻”!
项目地址:https://github.com/openai/simple-evals
53AI,企业落地大模型首选服务商
产品:场景落地咨询+大模型应用平台+行业解决方案
承诺:免费场景POC验证,效果验证后签署服务协议。零风险落地应用大模型,已交付160+中大型企业
2025-05-27
盘点 Azure AI Foundry 的10大重要更新
2025-05-27
50个AI基础常识问答(看完理解整个AI行业)
2025-05-27
AI时代下的软件升级:大模型如何让考勤系统听懂人话?
2025-05-27
美团要开放AI编程能力,将推出新产品NoCode|智能涌现独家
2025-05-27
AI大模型3种模式:Embedding、Copilot与Agent深度解析
2025-05-27
AI领域基础概念(下)
2025-05-26
万字长文!AI智能体全面爆发前夜:一文讲透技术架构与行业机会
2025-05-26
国产顶级 DeepResearch 类产品,把咨询专家请回家
2024-08-13
2024-06-13
2024-08-21
2024-09-23
2024-07-31
2024-05-28
2024-08-04
2024-04-26
2024-07-09
2024-07-20
2025-05-27
2025-05-26
2025-05-23
2025-05-23
2025-05-23
2025-05-18
2025-05-18
2025-05-17