ds4.c (DeepSeek V4 Flash 专用推理引擎) 说明

一、概述

ds4.c 是 Redis 之父 antirez（Salvatore Sanfilippo） 于 2026 年 5 月初发布的专用推理引擎，只服务于 DeepSeek V4 Flash 大模型，仅跑在 Apple Silicon Mac 上。

项目地址：https://github.com/antirez/ds4
定位：非通用框架（不是 llama.cpp、不支持其他模型），为单一模型“窄路径极致优化”。
背景：DeepSeek V4 Flash 是 MoE 稀疏模型：284B 总参数、13B 激活参数、100 万 token 上下文。

二、核心定位与设计哲学

一个模型，一个引擎：砍掉通用兼容性，只为 V4 Flash 做硬优化。
Metal 独占：完全基于苹果 Metal API，无 CUDA/AMD 支持，只能在 M1/M2/M3 系列 Mac 运行。
极简代码：纯 C/Objective-C/Metal，无第三方依赖，编译即运行。

三、代码构成（GitHub 统计）

C：55.4%（核心推理逻辑）
Objective-C：30.2%（Metal 绑定、内存管理）
Metal：13.8%（GPU 核心计算核）

四、支持的模型与量化

仅支持 DeepSeek V4 Flash（官方开源权重）。
专用量化（antirez 定制）：
- q2（2-bit）：可在 128GB 内存 Mac 运行，效果可用、支持 Agent 工具调用。
- q4（4-bit）：精度更高，需更大内存。
量化细节：仅对 MoE 路由专家量化（up/gate 用 IQ2_XXS，down 用 Q2_K）；共享专家/投影/路由保持全精度，平衡速度与质量。

五、性能数据（官方实测，2026-05）

设备	配置	性能
MacBook Pro M3 Max	128GB 内存、q2 量化	短 Prompt 预填充 58.52 token/s；生成 26.68 token/s
Mac Studio M3 Ultra	512GB 内存、q2 量化	长文本预填充 468.03 token/s（百万上下文）

六、核心技术亮点

MoE 专属调度：硬编码 V4 Flash 的 8 专家 + 2 激活 路由逻辑，无通用 MoE 开销。
Metal 核上融合：
- KV Cache 直接托管在 GPU 显存，避免 CPU-GPU 拷贝。
- 矩阵乘/激活/路由全部用 Metal Shader 硬写，无框架抽象层。
内存极致优化：
- 2-bit 量化 + 稀疏存储，284B 模型可塞进 128GB 内存。
- 动态 KV Cache 分片，百万上下文不爆内存。
思考模式原生支持：适配 V4 Flash 的 No Thinking/Thinking/Max Thinking 三模式，推理时动态调整计算强度。

七、适用场景

本地 Agent 开发：Mac 上跑 V4 Flash 做编程/工具调用/长文档处理。
百万级长文本：书籍/代码库/论文批量处理。
隐私优先：数据不出本地，适合敏感代码/文档分析。

八、局限性

硬件锁定：仅 Apple Silicon Mac，不支持 Windows/Linux、NVIDIA/AMD 显卡。
模型唯一：只认 DeepSeek V4 Flash，不支持 V4 Pro 或其他模型。
内存门槛：q2 至少 128GB，q4 建议 256GB+。

九、快速上手（Mac 步骤）

# 1. 克隆仓库
git clone https://github.com/antirez/ds4.git
cd ds4

# 2. 编译（需 Xcode 与 Metal 工具链）
make

# 3. 下载并转换 V4 Flash q2 权重（项目提供脚本）
./download-q2.sh

# 4. 运行本地推理（支持命令行/简单 API）
./ds4 -m deepseek-v4-flash-q2.bin -p "你的 Prompt"

十、与通用框架对比（llama.cpp 等）

ds4.c：V4 Flash 专属、Metal 硬优化、速度快 20%–50%、内存占用更低、仅 Apple Silicon。
llama.cpp：通用多模型、支持多平台、速度较慢、内存开销大、适配 V4 Flash 需额外开发。

总结

ds4.c 是 Apple Silicon 上本地跑 DeepSeek V4 Flash 的最优方案：把 284B 稀疏模型塞进 Mac，兼顾速度、内存与推理质量，特别适合本地 Agent 与长文本处理场景。

签到成功

CNDBA社区