签到成功

知道了

CNDBA社区CNDBA社区

Qwen3.5 开源小模型 清单

2026-03-03 09:34 1236 0 转载 大模型
作者: dave

Qwen3.5 小模型全景清单 (2026年3月更新)

1. 极致轻量与移动端系列 (0.8B - 2B)

🗓️ 开源时间:2026年3月3日
这批模型专为手机、平板、IoT 设备及低配笔记本设计,支持在本地离线运行。

模型名称 参数量 架构 GPU 显存需求 (推荐) 最低显卡要求 典型应用场景
Qwen3.5-0.8B 0.8 Billion Dense INT4: < 1 GBFP16: ~1.8 GB 无需独显(CPU/集成显卡/iPhone NPU) 智能手表、IoT 语音控制、离线翻译、简单指令跟随。
Qwen3.5-2B 2 Billion Dense INT4: ~1.5 GBFP16: ~4.5 GB GTX 1050 Ti (4G)或 Mac M1/M2/M3 手机端个人助理、车载终端、实时字幕生成、低延迟对话。

💡 部署提示:0.8B 和 2B 模型在量化后(INT4),甚至可以在树莓派 5 或旧款手机上流畅运行,无需独立 GPU。


2. 边缘计算与入门级系列 (4B - 9B)

🗓️ 开源时间:2026年3月3日
这批模型在性能与资源消耗之间取得了最佳平衡,是个人开发者和中小企业的首选。http://www.cndba.cn/cndba/dave/article/131843

http://www.cndba.cn/cndba/dave/article/131843
http://www.cndba.cn/cndba/dave/article/131843http://www.cndba.cn/cndba/dave/article/131843
http://www.cndba.cn/cndba/dave/article/131843
http://www.cndba.cn/cndba/dave/article/131843

模型名称 参数量 架构 GPU 显存需求 (推荐) 最低显卡要求 典型应用场景
Qwen3.5-4B 4 Billion Dense INT4: ~3 GBFP16: ~8.5 GB GTX 1650 (4G)或 RTX 3050 (6G/8G) 边缘服务器、高性能平板、本地知识库问答、代码辅助插件。
Qwen3.5-9B 9 Billion Dense INT4: ~6 GBFP16: ~18 GB RTX 3060 (12G)(强烈推荐) 单卡私有化部署、复杂逻辑推理、长文档分析、Agent 任务规划。

💡 部署提示http://www.cndba.cn/cndba/dave/article/131843http://www.cndba.cn/cndba/dave/article/131843http://www.cndba.cn/cndba/dave/article/131843

  • 9B 模型是目前的“性价比之王”。使用 RTX 3060 12G 运行 INT4 版本,显存占用仅约 6-7GB,剩余显存可支持 16K-32K 的长上下文窗口。
  • 若需运行 FP16 原生精度,则需要 RTX 3090/4090 (24G)

3. 高效能 MoE 系列 (中型模型)

🗓️ 开源时间:2026年2月25日
虽然参数量较大,但由于采用 MoE (混合专家) 架构,实际推理时的激活参数量极低,因此对显存的要求远低于同参数量的稠密模型。

模型名称 总参数量 激活参数量 架构 GPU 显存需求 (推荐) 最低显卡要求 典型应用场景
Qwen3.5-35B-A3B 35 Billion 3 Billion MoE INT4: ~8 GBFP16: ~20 GB RTX 3060 (12G)(INT4模式) 高并发 API 服务、复杂数学推理、多轮对话系统。性能超越上一代百亿模型。
Qwen3.5-122B-A10B 122 Billion 10 Billion MoE INT4: ~14 GBFP16: ~45 GB RTX 3090/4090 (24G)(INT4模式) 企业级核心业务、深度代码重构、科研数据分析。准旗舰级能力。

💡 部署提示

http://www.cndba.cn/cndba/dave/article/131843

  • 35B-A3B 非常特殊,虽然总参数大,但推理时只激活 3B,因此 RTX 3060 12G 即可流畅运行 INT4 版本,速度极快。
  • 122B-A10B 需要至少 16GB 显存 (INT4) 才能运行,推荐 24GB 显存 以获得更好的长文本体验。

🛠️ 硬件选购与部署建议总结

您的硬件环境 推荐运行的 Qwen3.5 模型 建议精度 预期体验
普通办公本 / 手机 / 树莓派 0.8B, 2B INT4 极速响应,完全离线,适合简单任务。
入门游戏本 (RTX 3050/4050) 2B, 4B INT4 / FP16 流畅运行,可处理中等长度文档。
主流台式机 (RTX 3060 12G) 4B, 9B, 35B-A3B INT4 黄金配置。可运行 9B 满血版或 35B MoE,支持长上下文。
高端发烧友 (RTX 3090/4090) 9B (FP16), 122B-A10B FP16 / INT4 9B 可跑原生精度;122B MoE 可流畅运行,性能极强。
Mac Studio (M2/M3 Ultra) 全系列 INT4 / FP16 统一内存架构优势巨大,可轻松运行 122B 甚至更大模型。

📝 关键时间点回顾

  • 2026-02-25:首发开源 35B-A3B, 122B-A10B (MoE架构) 及 27B (稠密)。
  • 2026-03-03:补全开源 0.8B, 2B, 4B, 9B (端侧小模型),至此 Qwen3.5 全系列就位。
用户评论
* 以下用户言论只代表其个人观点,不代表CNDBA社区的观点或立场
dave

dave

关注

人的一生应该是这样度过的:当他回首往事的时候,他不会因为虚度年华而悔恨,也不会因为碌碌无为而羞耻;这样,在临死的时候,他就能够说:“我的整个生命和全部精力,都已经献给世界上最壮丽的事业....."

  • 2297
    原创
  • 3
    翻译
  • 729
    转载
  • 201
    评论
  • 访问:10507134次
  • 积分:4627
  • 等级:核心会员
  • 排名:第1名
精华文章
    热门文章
      Copyright © 2016 All Rights Reserved. Powered by CNDBA · 皖ICP备2022006297号-1·

      AI QQ群