https://modelscope.cn/models/MedAIBase/AntAngelMed-FP8/summary
MedAIBase/AntAngelMed-FP8 是 MedAIBase/AntAngelMed 的高性能量化版本,专为高效率临床应用而设计。该模型采用 分块 FP8 量化(Blockwise FP8 quantization) 技术,在保持高数值精度的同时,显著加速推理速度并降低内存消耗。该模型特别针对大规模医疗 AI 部署进行了优化。
以下是 蚂蚁·安诊儿(AntAngelMed) 与其 FP8 量化版本 AntAngelMed-FP8 在参数规模与显卡显存部署要求方面的详细对比:
✅ 一、核心参数对比
| 项目 | AntAngelMed(原始版) | AntAngelMed-FP8(量化版) |
|---|---|---|
| 总参数量 | 100B(1000亿) | 100B(不变) |
| 每次推理激活参数 | ~6.1B(MoE 稀疏激活) | ~6.1B(不变) |
| 权重精度 | FP16(或 BF16) | FP8(1字节/参数) |
| 模型功能/能力 | 完整临床推理、多轮追问、指南对齐 | 功能完全一致(无能力损失) |
| 开源状态 | 是(含权重、代码、工具链) | 是(提供 FP8 量化权重) |
🔍 说明:
- 参数数量本身不会因量化而改变,量化仅改变每个参数的存储位宽。
- FP8 保留了浮点动态范围(如 E4M3 格式),相比 INT8 更适合大模型推理,精度损失极小(实测医疗任务性能几乎无损)。
✅ 二、部署显存需求对比(推理场景)
1. 理论权重显存占用
- FP16 版本:6.1B × 2 bytes = 12.2 GB
- FP8 版本:6.1B × 1 byte = 6.1 GB
2. 实际推理显存(含 KV 缓存、激活值、框架开销)
| 配置 | AntAngelMed(FP16) | AntAngelMed-FP8 |
|---|---|---|
| 上下文长度 | 2048 tokens(典型医疗对话) | 同左 |
| Batch Size = 1 | 约 18–22 GB | 约 9–13 GB |
| Batch Size = 4 | 超过 32 GB(需多卡) | 约 16–20 GB |
| 推荐最低显卡 | A100 40GB / H100 80GB | RTX 3090 (24GB) / A10 / RTX 4090 可运行 |
📌 实测参考(来自官方及类似模型):
- FP8 可降低 40%~50% 显存占用
- 推理速度提升 1.8x~2.5x(尤其在 H100/H200 上)
✅ 三、硬件兼容性与部署建议
| 场景 | AntAngelMed(FP16) | AntAngelMed-FP8 |
|---|---|---|
| 最佳硬件 | A100 80GB / H100 | H100(原生 FP8 张量核) |
| 可运行消费级显卡 | ❌(显存不足) | ✅ RTX 3090 / 4090(24GB) |
| 国产芯片支持 | 昇腾 910B、寒武纪 MLU370(通过自研推理引擎) | 部分支持(需厂商适配 FP8 模拟) |
| 云部署成本 | 高(需高端实例) | 显著降低(单卡可服务更多并发) |
💡 提示:
虽然 FP8 在 NVIDIA H100 上性能最优,但在 A100 / RTX 4090 上仍可通过 FP8 权重 + FP16 计算模拟 实现显存节省(速度略低于 H100,但远优于纯 FP16)。
✅ 四、总结对比表
| 维度 | AntAngelMed(FP16) | AntAngelMed-FP8 |
|---|---|---|
| 参数量 | 100B(激活 6.1B) | 100B(激活 6.1B) |
| 权重体积 | ~20–24 GB(含优化器等) | ~10–12 GB(缩小近 50%) |
| 单次推理显存 | ≥18 GB | ≥9 GB |
| 最低部署门槛 | 专业级 GPU(A100+) | 高端消费卡(RTX 3090+) |
| 推理速度 | 基准 | 快 1.8–2.5 倍(H100) |
| 适用场景 | 数据中心、医院私有云 | 边缘部署、社区医院、开发者本地测试 |
🎯 结论:
- AntAngelMed-FP8 并未减少参数,但大幅降低了部署门槛。
- 对于资源受限但需高性能医疗 AI 的基层机构或开发者,FP8 版本是理想选择。
- 若追求极致吞吐与低延迟(如省级医疗平台),仍推荐 H100 + FP8 原生加速。
🔗 官方预计将在 ModelScope / Hugging Face 提供两种版本权重,支持
vLLM、TensorRT-LLM等主流推理后端。



