Qwen3-30B-A3B-Thinking-2507：你值得拥有的 64 GB 级「推理怪兽」

Qwen3-30B-A3B-Thinking-2507：真正意义上「一张 910B 就能拥有的推理怪兽」但一张 64 GB 昇腾 910B 就能让它 INT8 全速跑、INT4 全并发。30 B 参数、3.3 B 激活、42 GB 显存、64 GB 单卡就能跑。它在数学、代码、中文理解三项全面碾压 70 B Dense，别再被“3 B 激活”迷惑——它依旧是 30 B 参数的大块头，在总

wxl781227

1111人浏览 · 2025-08-12 23:38:16

wxl781227 · 2025-08-12 23:38:16 发布

别再被“3 B 激活”迷惑——它依旧是 30 B 参数的大块头，

但一张 64 GB 昇腾 910B 就能让它 INT8 全速跑、INT4 全并发。

本文用真实显存账单告诉你：为什么它仍是 2025 年最值得入手的开源推理模型。

真实体积与显存账单

精度	权重	KV-Cache (4 K)	系统/临时	总显存需求
FP16	60 GB	8 GB	4 GB	72 GB
INT8 (Q8_0)	30 GB	8 GB	4 GB	42 GB
INT4 (Q4_K_M)	15 GB	8 GB	4 GB	27 GB

结论：

INT8 需 42 GB → 64 GB 卡刚好满载 + 20 % 余量
INT4 需 27 GB → 同卡可并发 8–10 路 4 K 请求

性能：同量级没有对手

Benchmark	30B-A3B-Thinking-2507	Llama-3-70B	DeepSeek-V3
AIME25 数学	85.0	64	74
LiveCodeBench 代码	66.0	48	59
SuperCLUE 中文推理	78.2 %	65 %	72 %

在总参 30 B / 激活 3.3 B 的 MoE 架构下，

它在数学、代码、中文理解三项全面碾压 70 B Dense，

真正做到了 “大模型性能，小模型能耗”。

一张 910B 能跑多快？

场景	精度	并发	吞吐	延迟
单条推理	INT8	1	45 tokens/s	2.2 s / 100 tokens
轻量并发	INT8	4	160 tokens/s	2.8 s / 100 tokens
极限并发	INT4	10	320 tokens/s	3.5 s / 100 tokens

数据来源：MindIE 2025-08-05 实测报告

INT8 单卡 4 路已能满足企业级 API 80 % 场景
INT4 单卡 10 路直接对标 2×A100 70 B 集群

场景落地：一张卡就能开服务

业务	配置	月电费	性能体验
高考数学辅导	INT8单卡	¥600	85 % 题一次答对
代码智能补全	INT4 10 路	¥600	66 % Hard 题 pass@1
128 K 合同审阅	INT8 单卡	¥600	1 M 动态窗口，ROUGE-L 47

三行命令，今晚就能上线

# 1. 拉模型
git lfs install
git clone https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507

# 2. INT8 量化（42 GB）
python -m mlx_lm.convert --hf-path Qwen3-30B-A3B-Thinking-2507 \
                         --q-bits 8 --q-group-size 128

# 3. MindIE 单卡启动
mindie_server --model-path ./qwen3-30b-a3b-q8_0 \
              --max-seq-len 8192 \
              --batch-size 4