我要投稿

阿里 Qwen3 正式发布，一口气开源8款模型！这个五一注定不太平！

发布日期：2025-04-29 07:37:34 浏览次数： 1878

作者：AI智见录

微信搜一搜，关注“AI智见录”

大模型圈又要热闹了！

就在刚刚，阿里云正式发布了 Qwen（通义千问）系列大模型的最新成员 —— Qwen3。这次发布包含了 8 个不同规模的模型，其中最大的模型有 235B 参数。

重磅升级，对标顶级模型

Qwen3 的旗舰模型是 Qwen3-235B-A22B。这个模型在代码、数学和通用能力等方面的测试中，已经可以和 DeepSeek-R1、o1、o3-mini、Grok-3 和 Gemini-2.5-Pro 等顶级模型一较高下。

Qwen3 系列包括：

2 个 MoE 模型：Qwen3-235B-A22B 和 Qwen3-30B-A3B
6 个标准模型：从 0.6B 到 32B 不等

亮点一：双模式思考能力

Qwen3 最大的创新是支持两种思考模式：

思考模式：模型会一步步推理，适合复杂问题。比如做数学题时，模型会像人类一样先分析问题，再逐步解答。
快速模式：模型直接给出答案，适合简单问题。比如问候、闲聊这类问题，模型会立即回应。

用户可以根据需要切换这两种模式。测试数据显示，在思考模式下，模型在 AIME（美国数学邀请赛）和 GPQA（通用问答）等任务上的表现会随着思考时间的增加而提升。

亮点二：超大规模预训练

Qwen3 的训练数据比上一代翻了一倍多：

Qwen2.5：18 万亿 token
Qwen3：36 万亿 token

训练数据来源广泛：

网络文本
PDF 文档
教科书
代码库
数学题库
多语言语料

训练过程分三步：

基础训练：用 30 万亿 token 训练基础语言能力
专业训练：加入 5 万亿专业领域数据（STEM、编程等）
长文本训练：把上下文长度扩展到 32K token

亮点三：创新的后训练方法

Qwen3 采用了四阶段后训练流程：

长文本冷启动：帮助模型适应长文本输入
推理强化学习：提升模型的推理能力
思维模式融合：把快速反应和深度思考能力结合
通用强化学习：在 20 多个领域进行能力训练

对于轻量级模型（如 Qwen3-4B/8B/14B），还使用了知识蒸馏技术，把大模型的能力传授给小模型。

亮点四：性能大幅提升

小模型也有大能力！Qwen3 的小型 MoE 模型 Qwen3-30B-A3B 只用了 QwQ-32B 十分之一的参数量，就取得了更好的效果。

就连最小的 Qwen3-4B 模型，也能达到 Qwen2.5-72B-Instruct 的水平。

亮点五：开箱即用

Qwen3 现在已经登陆各大平台：

Hugging Face
ModelScope
Kaggle

开发者可以用多种方式部署 Qwen3：

云端部署：用 SGLang 和 vLLM
本地部署：用 Ollama、LMStudio、MLX、llama.cpp 等工具

访问 https://chat.qwen.ai/ 在线体验。也可以在 App 上进行体验。

亮点六：多语言支持

Qwen3 支持 119 种语言，这让它可以服务全球用户。不管是中文、英文，还是小语种，Qwen3 都能应对自如。

大模型竞争加剧

就在 Qwen3 发布前，业内有爆料传出 DeepSeek R2 即将发布的消息。据说这个模型有这些特点：

1.2T 参数，78B 激活参数
比 GPT-4 便宜 97.3%
5.2PB 训练数据
视觉能力强，COCO 测试达到 92.4%
在华为 Ascend 910B 上利用率达到 82%

【重磅】一键接入扣子、Dify，FastGPT等开发平台

企业内部AI 先行者已通过扣子、Dify 等智能体开发平台积极探索 "人 + AI" 的效率革新。这些应用大多局限于小范围应用，基于此，我们打造一款开箱即用的 AI 门户-53AI Hub，让企业实现从 "场景级效率优化" 到 "企业级生产力重构" 的跨越....

53AI，企业落地大模型首选服务商

产品：场景落地咨询+大模型应用平台+行业解决方案

承诺：免费场景POC验证，效果验证后签署服务协议。零风险落地应用大模型，已交付160+中大型企业

相关资讯

2025-05-26

太猛了，字节把GPT-4o级图像模型开源了！

2025-05-26

Qwen3硬核解析：从36万亿Token到“思考预算”

2025-05-26

MinerU：高精度纸媒文档解析与数据提取一站式解决方案

了解更多

了解更多

160+中大型企业正在使用53AI

立即咨询预约演示

把握AI发展的机遇，共同探索、共同进步

2025-01-22

如何打造基于GenAI的员工服务机器人

2025-01-22

热点资讯

大家都在问

蚂蚁集团开源antv的MCP服务：AI智能体与数据可视化的桥梁如何搭建？

2025-05-26

拆解OpenAI最大对手的杀手锏：为什么会是MCP？

2025-05-25

从基础大模型到场景适配，企业如何做好商业化最后一公里？

2025-05-23

AI 开源框架：Dify、Zylon、AutoGPT、Flowise、LangChain、React-Flow怎么选？

2025-05-17

刚刚，OpenAI丢出最强编程智能体Codex！倒反天罡——新上线功能竟是微软Copilotb鼻祖？

2025-05-17

刚刚，OpenAI发布自主编码代理Codex，程序员的工作将被彻底颠覆？

2025-05-17

告别谷歌！阿里开源ZeroSearch大模型搜索成本直降88%，性能竟超原版？

2025-05-16

事实证明千问qwen3小模型才是企业的生产力，他究竟能做什么呢？

2025-05-14

热门标签

内容创作大模型技术个人提效 langchain llamaindex 多模态技术 RAG技术智能客服知识图谱模型微调 RAGFlow coze Dify Fastgpt Bisheng Qanything AI+汽车 AI+金融 AI+工业 AI+培训 AI+SaaS 提示词框架提示词技巧 AI+电商 AI面试数字员工 ChatBI 知识管理开源大模型智能营销智能硬件智能化改造 AI+医疗 MaxKB

应聘简历请发送至： ceo@53ai.com

联系我们

售前咨询

预约演示

微信扫码

添加专属顾问

回到顶部