截至 2026年1月14日,百川智能正式发布并开源了其新一代医疗专用大语言模型 —— Baichuan-M3。该模型被广泛认为是当前全球最强的开源医疗大模型,在多项权威评测中超越包括 GPT-5.2 在内的国际顶尖模型,标志着 AI 医疗从“问答助手”向“临床级智能伙伴”的关键跃迁。
🔍 核心说明
✅ 1. 是否开源?
- 完全开源(权重 + 推理代码 + 部分训练框架)
- 开源时间:2026年1月13日
- 开源协议允许研究、商用及二次开发(具体以官方 LICENSE 为准)
🌐 官方开源地址:
📏 2. 模型参数规模
- 2350 亿参数(235B)
- 专为医疗场景从头训练,非通用模型微调
- 支持高复杂度医学推理、多轮问诊、检验报告解读、用药分析等任务
🏆 3. 权威评测成绩
| 评测基准 | 成绩 | 全球排名 |
|---|---|---|
| HealthBench(综合) | 65.1 分 | 第1名 |
| HealthBench Hard(高难度子集) | 44.4 分 | 第1名 |
| 医疗幻觉率 | 3.5% | 全球最低(优于 GPT-5.2) |
💡 HealthBench 由 262 位来自 60 国的医生共建,包含 5000 组真实医患对话,是目前最贴近临床的 AI 医疗评测标准。
🧠 4. 核心技术突破
(1)原生“严肃问诊”能力
- 不依赖 Prompt 角色扮演,而是内建 SCAN 问诊原则:
- Safety Stratification(安全分层):优先排查危急重症
- Clarity Matters(信息澄清):量化模糊症状(如“有点痛”→疼痛评分)
- Association & Inquiry(关联追问):像侦探一样锁定病因
- Normative Protocol(规范化输出):结构化生成诊疗建议
- 在自研 SCAN-bench 动态评测中,问诊能力显著超越人类医生平均水平
(2)幻觉抑制内生于训练过程
- 采用 事实感知强化学习(Fact-Aware RL)
- 将“知之为知之,不知为不知”作为核心训练目标
- 无需 RAG 或外部检索,纯模型即可实现高可靠性作答
(3)循证医学驱动
- 构建六元权威知识库(含 UpToDate、NEJM、中华医学会指南等)
- 所有回答可追溯依据,支持鉴别诊断与风险提示
🏥 5. 应用场景
- 患者端:通过“百小应”App 进行症状自查、报告解读、就医准备
- 医生端:辅助病史采集、诊疗思路推演、基层医生培训
- 科研/教育:用于医学 NLP 研究、AI 临床决策系统开发
✅ 总结
Baichuan-M3 是首个具备“临床级问诊+低幻觉+强推理”三位一体能力的开源医疗大模型。
它不仅性能登顶全球,更通过开源推动 AI 医疗技术普惠,为开发者、医院和研究机构提供坚实基础模型支撑。
如需体验,可访问:百小应网页版
如需部署,可直接从 Hugging Face 或 GitHub 下载模型。



