一、概述
ds4.c 是 Redis 之父 antirez(Salvatore Sanfilippo) 于 2026 年 5 月初发布的专用推理引擎,只服务于 DeepSeek V4 Flash 大模型,仅跑在 Apple Silicon Mac 上。
- 项目地址:https://github.com/antirez/ds4
- 定位:非通用框架(不是 llama.cpp、不支持其他模型),为单一模型“窄路径极致优化”。
- 背景:DeepSeek V4 Flash 是 MoE 稀疏模型:284B 总参数、13B 激活参数、100 万 token 上下文。
二、核心定位与设计哲学
- 一个模型,一个引擎:砍掉通用兼容性,只为 V4 Flash 做硬优化。
- Metal 独占:完全基于苹果 Metal API,无 CUDA/AMD 支持,只能在 M1/M2/M3 系列 Mac 运行。
- 极简代码:纯 C/Objective-C/Metal,无第三方依赖,编译即运行。
三、代码构成(GitHub 统计)
- C:55.4%(核心推理逻辑)
- Objective-C:30.2%(Metal 绑定、内存管理)
- Metal:13.8%(GPU 核心计算核)
四、支持的模型与量化
- 仅支持 DeepSeek V4 Flash(官方开源权重)。
- 专用量化(antirez 定制):
- q2(2-bit):可在 128GB 内存 Mac 运行,效果可用、支持 Agent 工具调用。
- q4(4-bit):精度更高,需更大内存。
- 量化细节:仅对 MoE 路由专家量化(up/gate 用 IQ2_XXS,down 用 Q2_K);共享专家/投影/路由保持全精度,平衡速度与质量。
五、性能数据(官方实测,2026-05)
| 设备 | 配置 | 性能 |
|---|---|---|
| MacBook Pro M3 Max | 128GB 内存、q2 量化 | 短 Prompt 预填充 58.52 token/s;生成 26.68 token/s |
| Mac Studio M3 Ultra | 512GB 内存、q2 量化 | 长文本预填充 468.03 token/s(百万上下文) |
六、核心技术亮点
- MoE 专属调度:硬编码 V4 Flash 的 8 专家 + 2 激活 路由逻辑,无通用 MoE 开销。
- Metal 核上融合:
- KV Cache 直接托管在 GPU 显存,避免 CPU-GPU 拷贝。
- 矩阵乘/激活/路由全部用 Metal Shader 硬写,无框架抽象层。
- 内存极致优化:
- 2-bit 量化 + 稀疏存储,284B 模型可塞进 128GB 内存。
- 动态 KV Cache 分片,百万上下文不爆内存。
- 思考模式原生支持:适配 V4 Flash 的 No Thinking/Thinking/Max Thinking 三模式,推理时动态调整计算强度。
七、适用场景
- 本地 Agent 开发:Mac 上跑 V4 Flash 做编程/工具调用/长文档处理。
- 百万级长文本:书籍/代码库/论文批量处理。
- 隐私优先:数据不出本地,适合敏感代码/文档分析。
八、局限性
- 硬件锁定:仅 Apple Silicon Mac,不支持 Windows/Linux、NVIDIA/AMD 显卡。
- 模型唯一:只认 DeepSeek V4 Flash,不支持 V4 Pro 或其他模型。
- 内存门槛:q2 至少 128GB,q4 建议 256GB+。
九、快速上手(Mac 步骤)
# 1. 克隆仓库
git clone https://github.com/antirez/ds4.git
cd ds4
# 2. 编译(需 Xcode 与 Metal 工具链)
make
# 3. 下载并转换 V4 Flash q2 权重(项目提供脚本)
./download-q2.sh
# 4. 运行本地推理(支持命令行/简单 API)
./ds4 -m deepseek-v4-flash-q2.bin -p "你的 Prompt"
十、与通用框架对比(llama.cpp 等)
- ds4.c:V4 Flash 专属、Metal 硬优化、速度快 20%–50%、内存占用更低、仅 Apple Silicon。
- llama.cpp:通用多模型、支持多平台、速度较慢、内存开销大、适配 V4 Flash 需额外开发。
总结
ds4.c 是 Apple Silicon 上本地跑 DeepSeek V4 Flash 的最优方案:把 284B 稀疏模型塞进 Mac,兼顾速度、内存与推理质量,特别适合本地 Agent 与长文本处理场景。






