🧠 一、模型概览
| 项目 | 内容 |
|---|---|
| 全称 | MedGemma 1.5 (4B) |
| 发布机构 | Google Research / Health AI Developer Foundation |
| 发布时间 | 2026年1月14日 |
| 参数量 | 约 40 亿(4B) |
| 开源状态 | ✅ 完全开源,免费用于研究与商业用途 |
| 许可协议 | 基于 HAI-DEF(Health AI Developer Foundation)使用条款 |
| 核心定位 | 面向开发者的基础医疗多模态大模型(非临床诊断工具) |
⚠️ 重要声明:MedGemma 1.5 不得直接用于临床诊断、治疗建议或患者决策,仅作为开发者构建医疗 AI 应用的起点。
🌐 二、核心能力与技术突破
1. 原生支持高维医学影像
- CT(计算机断层扫描):可处理三维体数据切片序列,识别肺结节、脑出血等
- MRI(磁共振成像):支持 T1/T2 加权图像分析,如脑肿瘤分割、脊髓病变检测
- 全切片病理图像(WSI):通过 patch-based 编码器解析数字玻片,辅助癌症分级
- 纵向影像对比:自动比对患者历史 X 光/CT,识别病情进展(如肺炎吸收、骨转移)
2. 多模态融合架构
- 文本 + 图像联合推理:例如输入“这位患者的胸部 CT 显示什么?”+ CT 切片 → 生成自然语言报告
- 基于 SigLIP 的医学图像编码器:在放射科、病理科、皮肤科等专业图像上预训练
- 解码器-only Transformer:继承自 Gemma 3 架构,支持 128K tokens 长上下文
3. 医学文本理解大幅增强
| 任务 | MedGemma 1.0 | MedGemma 1.5 | 提升 |
|---|---|---|---|
| MedQA(USMLE 风格问答) | 64% | 69% | +5% |
| EHRQA(电子病历问答) | 68% | 90% | +22% |
| 实验室报告结构化 F1 | 60% | 78% | +18% |
4. 解剖定位与视觉问答
- 在胸部 X 光中,可输出 边界框(bounding box) 标注心脏、肺野、肋骨等结构
- 支持 VQA(Visual Question Answering):“右下肺是否有实变?” → 模型定位并回答
📊 三、性能表现(官方基准测试)
| 任务 | 指标 | MedGemma 1.5 表现 |
|---|---|---|
| CT 疾病分类 | 准确率 | 61%(↑3%) |
| MRI 异常检测 | 准确率 | 65%(↑14%) |
| 病理报告生成 | ROUGE-L | 0.49(↑0.47,达 PolyPath 水平) |
| 解剖结构定位 | Chest ImaGenome 交叉率 | 38%(↑35%) |
| 纵向 X 光对比 | MS-CXR-T 宏观准确率 | 66%(↑5%) |
注:在多个任务上超越同参数量通用模型(如 Gemma 3 4B),甚至优于前代 27B 模型。
🛠️ 四、配套工具:MedASR(医疗语音识别)
- 名称:MedASR
- 用途:将医生口述转为结构化文本(如影像描述、病程记录)
- 词错误率(WER):
- 胸部 X 光口述:5.2%(Whisper-large-v3 为 12.5%)
- 通用医疗口述:5.2%(Whisper 为 28.2%,错误减少 82%)
- 集成方式:语音 → MedASR → 文本 → MedGemma 1.5 → 报告生成
💾 五、下载与部署地址(官方)
✅ 1. Hugging Face(推荐)
- 主模型:
🔗 https://huggingface.co/healthai-foundation/MedGemma-1.5-4B - MedASR 模型:
🔗 https://huggingface.co/healthai-foundation/MedASR
支持
transformers、llama.cpp、vLLM,提供 PyTorch 权重、tokenizer、配置文件。
✅ 2. GitHub(代码与文档)
- 官方仓库:
🔗 https://github.com/google-research/medgemma - 包含:
- 微调脚本(LoRA/QLoRA)
- 评估基准(MedQA, EHRQA, Chest ImaGenome)
- Docker 镜像 & Colab 示例
✅ 3. Google Cloud Vertex AI
- 云端 API 部署(支持 DICOM 原生输入):
🔗 https://cloud.google.com/vertex-ai/docs/model-garden/medgemma
✅ 4. Kaggle(实战竞赛)
- MedGemma Impact Challenge:
🔗 https://www.kaggle.com/competitions/medgemma-impact-challenge
🖥️ 六、本地运行要求
| 组件 | 最低要求 |
|---|---|
| GPU | RTX 3090 / A10 / L4(≥24GB 显存) |
| CPU/RAM | ≥32GB 内存 |
| 存储 | ≥20GB SSD |
| 框架 | Python ≥3.10, PyTorch ≥2.1, transformers ≥4.38 |
| 量化支持 | GGUF、AWQ(可在 RTX 4090 上运行) |
📌 七、典型应用场景
- 🏥 医院内部辅助系统:影像初筛、报告草稿生成
- 📱 移动端/边缘设备:基层诊所离线使用(因 4B 轻量化)
- 🧪 医学研究:病理图像批量分析、纵向队列研究
- 📄 EHR 系统集成:自动提取病历关键信息、生成摘要
- 🤖 医学问答机器人:面向医生或医学生的知识检索
🔒 八、合规与隐私优势
- 4B 小模型:可完全在医院内网或医生工作站运行,满足 HIPAA/GDPR “数据不出院”要求
- 去标识化训练数据:所有预训练数据均经严格脱敏
- 私有化部署友好:无需依赖公有云 API
📚 九、延伸资源
- 技术报告:medgemma-1.5-tech-report.pdf
- 官方博客:Google AI Blog - MedGemma 1.5
- Colab 快速体验:Demo Notebook
✅ 总结
MedGemma 1.5 是当前最先进、最实用的开源医疗多模态大模型之一。它以 4B 参数实现高性能、多模态、可本地部署 的能力,显著降低医疗 AI 应用门槛,推动 AI 从“云端巨型模型”走向“边缘专业助手”。对于医疗机构、ISV 开发者、科研人员而言,它是构建下一代智能医疗系统的理想基座。
🌟 关键词:开源 · 多模态 · CT/MRI · 病理 · 边缘部署 · 医疗大模型 · MedGemma 1.5



