智谱开源GLM-OCR模型:0.9B参数实现文档解析新标杆
2026年2月3日,智谱AI正式发布并开源专业级OCR模型GLM-OCR,以仅0.9B(90亿)参数的轻量化设计,在权威文档解析榜单OmniDocBench V1.5中以94.6分登顶SOTA,性能接近通用大模型Gemini-3-Pro,同时在公式识别、复杂表格解析、信息抽取等多项基准测试中均取得当前最优表现。
一、核心亮点
| 特性 | 详情 |
|---|---|
| 极致轻量化 | 仅0.9B参数,远小于传统千亿级大模型,部署门槛低 |
| 性能SOTA | OmniDocBench V1.5综合得分94.6,四大核心任务全面领先 |
| 场景优化 | 针对手写体、复杂表格、印章、代码文档、票据等高难场景专项优化 |
| 部署灵活 | 支持vLLM、SGLang和Ollama多框架部署,适配边缘与高并发场景 |
| 成本优势 | 处理1000个任务仅需约0.1美元(0.2元/千页),PDF吞吐量达1.86页/秒 |
二、技术架构与创新
GLM-OCR基于GLM-V多模态架构构建,融合多项技术创新:
- 自研CogViT视觉编码器:高效提取图像特征,平衡精度与速度
- 精简跨模态连接模块:优化编码器-解码器结构,降低参数开销
- 多Token预测损失(MTP):提升文本识别准确率,尤其在长文本场景
- 端到端强化学习训练:增强模型在复杂场景下的鲁棒性
- 数十亿图文对预训练:基于CLIP范式,具备强大视觉语义理解能力
三、SOTA性能表现
1. 权威榜单登顶
在OmniDocBench V1.5综合评测中,GLM-OCR以94.6分刷新纪录,领先所有参测模型。
2. 四大核心任务SOTA
| 任务类型 | 表现亮点 |
|---|---|
| 文本识别 | 准确率94.0%,连笔手写体识别准确率比传统工具高23% |
| 公式解析 | 数学公式识别准确率96.5%,支持复杂公式推导 |
| 表格重构 | 嵌套表格识别准确率94.5%,完美还原复杂表格结构 |
| 信息抽取 | 票据、证件关键信息提取准确率92.1%,有效处理印章干扰 |
3. 越级性能对比
内部测评显示,GLM-OCR在四大核心任务上全面超越多款专项OCR模型,部分能力接近谷歌Gemini-3-Pro这样的旗舰级通用大模型。
四、典型应用场景
- 办公自动化:合同、发票、报表等文档数字化,自动提取关键信息
- 金融服务:银行票据、身份证、营业执照识别,降低人工审核成本
- 教育科研:数学公式、论文图表、手写笔记识别,助力文献数字化
- 代码文档解析:精准识别代码中的特殊符号和格式,提升编程效率
- 政务服务:各类证件、申请表单识别,推动政务流程线上化
五、部署与使用
- 开源获取:模型已在GitHub、ModelScope等平台开源,提供完整SDK
- 快速部署:一行命令即可调用,支持本地部署、云端API和边缘计算场景
- 生态适配:兼容主流OCR工具链,可与现有系统无缝集成
- API服务:提供高可用API接口,适合大规模商业应用
六、总结
GLM-OCR以0.9B参数实现”小尺寸、高精度、低成本”的三重突破,重构OCR技术性价比标杆。它不仅在权威基准测试中取得SOTA,更针对真实业务痛点优化,为文档数字化提供了全新解决方案,特别适合资源受限场景和大规模部署需求。




