智谱开源GLM-OCR模型：0.9B参数实现文档解析新标杆

2026年2月3日，智谱AI正式发布并开源专业级OCR模型GLM-OCR，以仅0.9B(90亿)参数的轻量化设计，在权威文档解析榜单OmniDocBench V1.5中以94.6分登顶SOTA，性能接近通用大模型Gemini-3-Pro，同时在公式识别、复杂表格解析、信息抽取等多项基准测试中均取得当前最优表现。

一、核心亮点

特性	详情
极致轻量化	仅0.9B参数，远小于传统千亿级大模型，部署门槛低
性能SOTA	OmniDocBench V1.5综合得分94.6，四大核心任务全面领先
场景优化	针对手写体、复杂表格、印章、代码文档、票据等高难场景专项优化
部署灵活	支持vLLM、SGLang和Ollama多框架部署，适配边缘与高并发场景
成本优势	处理1000个任务仅需约0.1美元(0.2元/千页)，PDF吞吐量达1.86页/秒

二、技术架构与创新

GLM-OCR基于GLM-V多模态架构构建，融合多项技术创新：http://www.cndba.cn/dave/article/131821

自研CogViT视觉编码器：高效提取图像特征，平衡精度与速度
精简跨模态连接模块：优化编码器-解码器结构，降低参数开销
多Token预测损失(MTP)：提升文本识别准确率，尤其在长文本场景
端到端强化学习训练：增强模型在复杂场景下的鲁棒性
数十亿图文对预训练：基于CLIP范式，具备强大视觉语义理解能力

三、SOTA性能表现

1. 权威榜单登顶

在OmniDocBench V1.5综合评测中，GLM-OCR以94.6分刷新纪录，领先所有参测模型。

2. 四大核心任务SOTA

任务类型	表现亮点
文本识别	准确率94.0%，连笔手写体识别准确率比传统工具高23%
公式解析	数学公式识别准确率96.5%，支持复杂公式推导
表格重构	嵌套表格识别准确率94.5%，完美还原复杂表格结构
信息抽取	票据、证件关键信息提取准确率92.1%，有效处理印章干扰

3. 越级性能对比

内部测评显示，GLM-OCR在四大核心任务上全面超越多款专项OCR模型，部分能力接近谷歌Gemini-3-Pro这样的旗舰级通用大模型。

四、典型应用场景

办公自动化：合同、发票、报表等文档数字化，自动提取关键信息
金融服务：银行票据、身份证、营业执照识别，降低人工审核成本
教育科研：数学公式、论文图表、手写笔记识别，助力文献数字化
代码文档解析：精准识别代码中的特殊符号和格式，提升编程效率
政务服务：各类证件、申请表单识别，推动政务流程线上化

五、部署与使用

开源获取：模型已在GitHub、ModelScope等平台开源，提供完整SDK
快速部署：一行命令即可调用，支持本地部署、云端API和边缘计算场景
生态适配：兼容主流OCR工具链，可与现有系统无缝集成
API服务：提供高可用API接口，适合大规模商业应用

六、总结

GLM-OCR以0.9B参数实现”小尺寸、高精度、低成本”的三重突破，重构OCR技术性价比标杆。它不仅在权威基准测试中取得SOTA，更针对真实业务痛点优化，为文档数字化提供了全新解决方案，特别适合资源受限场景和大规模部署需求。http://www.cndba.cn/dave/article/131821http://www.cndba.cn/dave/article/131821

签到成功

CNDBA社区