别再被“3 B 激活”迷惑——它依旧是 30 B 参数的大块头,

但 一张 64 GB 昇腾 910B 就能让它 INT8 全速跑、INT4 全并发。

本文用真实显存账单告诉你:为什么它仍是 2025 年最值得入手的开源推理模型。


  1. 真实体积与显存账单
精度 权重 KV-Cache (4 K) 系统/临时 总显存需求
FP16 60 GB 8 GB 4 GB 72 GB
INT8 (Q8_0) 30 GB 8 GB 4 GB 42 GB
INT4 (Q4_K_M) 15 GB 8 GB 4 GB 27 GB

结论:

  • INT8 需 42 GB → 64 GB 卡刚好满载 + 20 % 余量
  • INT4 需 27 GB → 同卡可并发 8–10 路 4 K 请求

  1. 性能:同量级没有对手
Benchmark 30B-A3B-Thinking-2507 Llama-3-70B DeepSeek-V3
AIME25 数学 85.0 64 74
LiveCodeBench 代码 66.0 48 59
SuperCLUE 中文推理 78.2 % 65 % 72 %

在 总参 30 B / 激活 3.3 B 的 MoE 架构下,

它在 数学、代码、中文理解 三项 全面碾压 70 B Dense,

真正做到了 “大模型性能,小模型能耗”。


  1. 一张 910B 能跑多快?
场景 精度 并发 吞吐 延迟
单条推理 INT8 1 45 tokens/s 2.2 s / 100 tokens
轻量并发 INT8 4 160 tokens/s 2.8 s / 100 tokens
极限并发 INT4 10 320 tokens/s 3.5 s / 100 tokens

数据来源:MindIE 2025-08-05 实测报告

  • INT8 单卡 4 路 已能满足 企业级 API 80 % 场景
  • INT4 单卡 10 路 直接对标 2×A100 70 B 集群

  1. 场景落地:一张卡就能开服务
业务 配置 月电费 性能体验
高考数学辅导 INT8单卡 ¥600 85 % 题一次答对
代码智能补全 INT4 10 路 ¥600 66 % Hard 题 pass@1
128 K 合同审阅 INT8 单卡 ¥600 1 M 动态窗口,ROUGE-L 47

  1. 三行命令,今晚就能上线
# 1. 拉模型
git lfs install
git clone https://huggingface.co/Qwen/Qwen3-30B-A3B-Thinking-2507

# 2. INT8 量化(42 GB)
python -m mlx_lm.convert --hf-path Qwen3-30B-A3B-Thinking-2507 \
                         --q-bits 8 --q-group-size 128

# 3. MindIE 单卡启动
mindie_server --model-path ./qwen3-30b-a3b-q8_0 \
              --max-seq-len 8192 \
              --batch-size 4

  1. 成本对比:一张 910B = 两台 A100?
方案 显卡 并发 月电费 备注
Llama-3-70B 2×A100 80 GB 6 ¥1,200 电费翻倍
DeepSeek-V3 2×A100 80 GB 8 ¥1,200 显存吃紧
Qwen3-30B-A3B-Thinking-2507 1×910B 64 GB 10 ¥600 单卡搞定

  1. 一句话总结

30 B 参数、3.3 B 激活、42 GB 显存、64 GB 单卡就能跑

数学 85 分、代码 66 分、中文霸榜

电费砍半、并发翻倍、Apache 2.0 零门槛

Qwen3-30B-A3B-Thinking-2507:真正意义上「一张 910B 就能拥有的推理怪兽」

Logo

昇腾计算产业是基于昇腾系列(HUAWEI Ascend)处理器和基础软件构建的全栈 AI计算基础设施、行业应用及服务,包括昇腾系列处理器、系列硬件、CANN、AI计算框架、应用使能、开发工具链、管理运维工具、行业应用及服务等全产业链

更多推荐