百度开源 Unlimited-OCR:一次扫描、长文本解析的新时代
📅 2026年06月23日 · 技术
Unlimited-OCR 是什么?
百度最新开源的 Unlimited-OCR 是一个面向文档级 OCR(光学字符识别)的模型,定位是"将 DeepSeek-OCR 向前推进一步"。它的核心能力是"一次扫描、长视野解析"(One-shot Long-horizon Parsing),即对整页甚至多页文档进行一次性的 OCR 识别,无需逐行或逐块处理。
项目已在 GitHub 上开源,同时在 Hugging Face 上发布了模型权重,支持 Transformers 和 SGLang 两种推理方式。
技术亮点
Unlimited-OCR 提供了两种推理配置:
- gundam 模式:base_size=1024, image_size=640, 启用 crop_mode,适合单页文档的高精度识别
- base 模式:base_size=1024, image_size=1024,不使用 crop,适合多页和 PDF 文档
模型支持最长达 32768 token 的输出,使用 no_repeat_ngram_size 和 ngram_window 参数控制生成质量,避免重复输出。还内置了 PDF 转图片的工具方法,可以一键处理整个 PDF 文档。
如何上手
使用 Hugging Face Transformers 调用非常简单:
from transformers import AutoModel, AutoTokenizer
model_name = 'baidu/Unlimited-OCR'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True)
model.infer(tokenizer, prompt='<image>document parsing.',
image_file='your_image.jpg', output_path='output_dir')
如果需要更高性能的部署,还可以使用 SGLang 启动服务,支持多并发请求。
适用场景
与传统的行级 OCR 不同,Unlimited-OCR 更适合需要理解文档整体布局的场景:发票识别、合同解析、学术论文 OCR、历史档案数字化等。它的"一次扫描"特性意味着不需要对文档做预处理分割,大幅简化了 OCR 流水线。
对于国内开发者来说,百度的这个开源项目还有一个额外优势——对中文文档的识别效果通常优于海外开源模型。
参考来源
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具
🔧 在线开发者工具 — JSON格式化 · Base64 · UUID生成 · 正则测试 等80+免费工具