我要投稿

OpenAI o1-mini：优化成本效益的高效推理模型

发布日期：2024-09-13 08:25:56 浏览次数： 2235

作者：跳动的数据

微信搜一搜，关注“跳动的数据”

我们发布了OpenAI o1-mini，一款具有成本效益的推理模型。o1-mini在STEM领域，特别是数学和编程方面表现出色——在AIME和Codeforces等评估基准上几乎匹敌OpenAI o1的表现。我们预计o1-mini将成为在需要推理而不涉及广泛世界知识的应用中更快、更具成本效益的模型。

今天，我们向Tier 5 API用户（在新窗口中打开）推出了o1-mini，其成本比OpenAI o1-preview便宜80%。ChatGPT Plus、团队、企业和教育用户可以将o1-mini作为o1-preview的替代选择，享受更高的速率限制和更低的延迟（参见模型速度）。

优化STEM推理

像o1这样的大型语言模型在预训练时使用了大量的文本数据集。虽然这些高容量模型拥有广泛的世界知识，但对于实际应用来说，它们可能会昂贵且运行速度较慢。相比之下，o1-mini是一款在预训练过程中针对STEM推理进行优化的较小模型。经过与o1相同的高计算量强化学习（RL）管道训练后，o1-mini在许多有用的推理任务上实现了与o1相当的表现，同时显著提高了成本效益。

在要求智能和推理能力的基准测试中，o1-mini与o1-preview和o1的表现相当。然而，在需要非STEM事实知识的任务上，o1-mini的表现较差（参见局限性）。

数学表现与推理成本比较

数学：在高中AIME数学竞赛中，o1-mini的得分为70.0%，与o1的74.4%具有竞争力，且成本明显更低，同时也优于o1-preview的44.6%。o1-mini的得分（约答对11/15道题）使其位列全美约前500名高中生。

【重磅】一键接入扣子、Dify，FastGPT等开发平台

立即开通>>

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

编程：在Codeforces竞赛网站上，o1-mini的Elo评分为1650，接近o1的1673，并且高于o1-preview的1258。这个Elo评分将该模型排在Codeforces平台上约86%的程序员之上。o1-mini还在HumanEval编程基准测试以及高中级别的网络安全夺旗挑战赛（CTF）中表现出色。