Reader

Qwen3 正式发布:大模型的聪明,小模型的速度|30B 模型能跑出 3B 速度,私有部署有戏了

| 小众软件 | News
Qwen3 正式发布:大模型的聪明,小模型的速度|30B 模型能跑出 3B 速度,私有部署有戏了 1

喜闻乐见基准测试

Qwen3 在多个权威基准测试中,与 DeepSeek-R1 和 OpenAI 的主流模型(如O1、O3-mini)均处于同一梯队,甚至在部分任务上实现了超越。例如,Qwen3-32B 在 LiveBench 准确率等测试中超过了 OpenAI O1,同时在工具调用、指令跟随和数据格式复制等方面表现突出:

测试项目Qwen3-235B-A22BQwen3-32BDeepSeek-R1OpenAI-o1OpenAI-o3-mini
ArenaHard95.693.893.292.189.0
AIME’24 (数学)85.781.479.874.379.6
AIME’25 (数学)81.572.970.079.274.8
LiveCodeBench70.765.764.363.966.3
CodeForces (编程)20561977202918912036
LiveBench (综合)77.174.971.675.770.0
MultiIF (多语)71.973.067.748.848.4

来源:https://qwenlm.github.io/blog/qwen3/

喜闻乐见实测

小众软件群里的 smallpig 同学在自己的 4090 24GB 单显卡上实测,使用 Qwen3-30B-A3B 模型,实现了其他 3B 模型的速度,但是质量有 30B。

Qwen3 正式发布:大模型的聪明,小模型的速度|30B 模型能跑出 3B 速度,私有部署有戏了 2

这意味着个人用户在自己家中跑可以正常使用的大模型,不再是什么大问题了。

Qwen3 正式发布:大模型的聪明,小模型的速度|30B 模型能跑出 3B 速度,私有部署有戏了 3

主要结论

综合能力

Qwen3-235B-A22B 在绝大多数基准测试(如 ArenaHard、AIME’24、AIME’25、LiveBench、MultiIF)均取得了当前主流开源模型中的最高分,整体表现优于 DeepSeek-R1 和 OpenAI-o1,甚至在部分任务上超越了 Gemini 2.5-Pro 和 Grok 3 Beta 等闭源大模型。

数学与推理

Qwen3-235B-A22B 在数学类测试(AIME’24/25)和推理类任务上成绩领先,尤其适合高难度 STEM 场景。

编程能力

在 Codeforces 编程 Elo Rating 上,Qwen3-235B-A22B(2056)与 DeepSeek-R1(2029)、OpenAI-o3-mini(2036)处于同一梯队,均为顶级水平。

多语言能力

Qwen3 在 MultiIF(8语种推理)测试中表现突出,显示其多语言能力极强,远超 OpenAI-o1、o3-mini 等模型。

中小模型表现

Qwen3-30B-A3B、Qwen3-32B 在绝大多数任务上也均优于同参数量的 DeepSeek-V3、Gemma、Qwen2.5-72B-Instruct 等开源模型,且小模型性能提升明显。


Qwen3 正式发布,共开放8款模型,包括2个Mixture-of-Experts(MoE)模型和6个密集模型,参数规模覆盖0.6B到235B,适配从移动端到云端的多场景需求。

Qwen3最大亮点在于“混合思考模式”:用户可根据任务复杂度,在“思考模式”(逐步推理,适合复杂问题)和“极速模式”(高效直答,适合简单问题)之间灵活切换,还能通过 /think和 /no_think 标签动态控制思考深度,实现推理预算的精细调节。

多语言能力显著提升,支持119种语言和方言,覆盖全球主流语种,满足多语环境下的对话、翻译和专业领域需求。预训练数据量达到36万亿tokens,涵盖STEM、代码、推理等多领域,模型在数学、代码、逻辑推理等任务上表现优异,部分小模型已能媲美甚至超越上一代大模型。

Qwen3支持多模态扩展,具备文本、代码、音频、图像等处理能力,并强化了智能体(Agent)工具调用,适合复杂自动化场景。所有模型均采用Apache 2.0开源协议,免费可商用,支持主流推理框架和本地部署,开发者可灵活集成到各类应用中。


原文:https://www.appinn.com/qwen3/


©2025 青小蛙 for 小众软件 | 加入我们 | 投稿 | 订阅指南
3659b075e72a5b7b1b87ea74aa7932ff
点击这里留言、和原作者一起评论

[ 点击前往获取链接 ]