Qwen3-30B-A3B-Thinking-2507:你值得拥有的 64 GB 级「推理怪兽」
Qwen3-30B-A3B-Thinking-2507:真正意义上「一张 910B 就能拥有的推理怪兽」但 一张 64 GB 昇腾 910B 就能让它 INT8 全速跑、INT4 全并发。30 B 参数、3.3 B 激活、42 GB 显存、64 GB 单卡就能跑。它在 数学、代码、中文理解 三项 全面碾压 70 B Dense,别再被“3 B 激活”迷惑——它依旧是 30 B 参数的大块头,在 总
·
别再被“3 B 激活”迷惑——它依旧是 30 B 参数的大块头,
但 一张 64 GB 昇腾 910B 就能让它 INT8 全速跑、INT4 全并发。
本文用真实显存账单告诉你:为什么它仍是 2025 年最值得入手的开源推理模型。
- 真实体积与显存账单
精度 | 权重 | KV-Cache (4 K) | 系统/临时 | 总显存需求 |
---|---|---|---|---|
FP16 | 60 GB | 8 GB | 4 GB | 72 GB |
INT8 (Q8_0) | 30 GB | 8 GB | 4 GB | 42 GB |
INT4 (Q4_K_M) | 15 GB | 8 GB | 4 GB | 27 GB |
结论:
- INT8 需 42 GB → 64 GB 卡刚好满载 + 20 % 余量
- INT4 需 27 GB → 同卡可并发 8–10 路 4 K 请求
- 性能:同量级没有对手
Benchmark | 30B-A3B-Thinking-2507 | Llama-3-70B | DeepSeek-V3 |
---|---|---|---|
AIME25 数学 | 85.0 | 64 | 74 |
LiveCodeBench 代码 | 66.0 | 48 | 59 |
SuperCLUE 中文推理 | 78.2 % | 65 % | 72 % |
在 总参 30 B / 激活 3.3 B 的 MoE 架构下,
它在 数学、代码、中文理解 三项 全面碾压 70 B Dense,
真正做到了 “大模型性能,小模型能耗”。
- 一张 910B 能跑多快?
场景 | 精度 | 并发 | 吞吐 | 延迟 |
---|---|---|---|---|
单条推理 | INT8 | 1 | 45 tokens/s | 2.2 s / 100 tokens |
轻量并发 | INT8 | 4 | 160 tokens/s | 2.8 s / 100 tokens |
极限并发 | INT4 | 10 | 320 tokens/s | 3.5 s / 100 tokens |
数据来源:MindIE 2025-08-05 实测报告
- INT8 单卡 4 路 已能满足 企业级 API 80 % 场景
- INT4 单卡 10 路 直接对标 2×A100 70 B 集群
- 场景落地:一张卡就能开服务
业务 | 配置 | 月电费 | 性能体验 |
---|---|---|---|
高考数学辅导 | INT8单卡 | ¥600 | 85 % 题一次答对 |
代码智能补全 | INT4 10 路 | ¥600 | 66 % Hard 题 pass@1 |
128 K 合同审阅 | INT8 单卡 | ¥600 | 1 M 动态窗口,ROUGE-L 47 |
- 三行命令,今晚就能上线
# 1. 拉模型
git lfs install
git clone https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507
# 2. INT8 量化(42 GB)
python -m mlx_lm.convert --hf-path Qwen3-30B-A3B-Thinking-2507 \
--q-bits 8 --q-group-size 128
# 3. MindIE 单卡启动
mindie_server --model-path ./qwen3-30b-a3b-q8_0 \
--max-seq-len 8192 \
--batch-size 4
- 成本对比:一张 910B = 两台 A100?
方案 | 显卡 | 并发 | 月电费 | 备注 |
---|---|---|---|---|
Llama-3-70B | 2×A100 80 GB | 6 | ¥1,200 | 电费翻倍 |
DeepSeek-V3 | 2×A100 80 GB | 8 | ¥1,200 | 显存吃紧 |
Qwen3-30B-A3B-Thinking-2507 | 1×910B 64 GB | 10 | ¥600 | 单卡搞定 |
- 一句话总结
30 B 参数、3.3 B 激活、42 GB 显存、64 GB 单卡就能跑
数学 85 分、代码 66 分、中文霸榜
电费砍半、并发翻倍、Apache 2.0 零门槛
Qwen3-30B-A3B-Thinking-2507:真正意义上「一张 910B 就能拥有的推理怪兽」

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链
更多推荐
所有评论(0)