百度开源 Unlimited-OCR：一次扫描、长文本解析的新时代

📅 2026年06月23日 · 技术

Unlimited-OCR 是什么？

百度最新开源的 Unlimited-OCR 是一个面向文档级 OCR（光学字符识别）的模型，定位是"将 DeepSeek-OCR 向前推进一步"。它的核心能力是"一次扫描、长视野解析"（One-shot Long-horizon Parsing），即对整页甚至多页文档进行一次性的 OCR 识别，无需逐行或逐块处理。

项目已在 GitHub 上开源，同时在 Hugging Face 上发布了模型权重，支持 Transformers 和 SGLang 两种推理方式。

技术亮点

Unlimited-OCR 提供了两种推理配置：

gundam 模式：base_size=1024, image_size=640, 启用 crop_mode，适合单页文档的高精度识别
base 模式：base_size=1024, image_size=1024，不使用 crop，适合多页和 PDF 文档

模型支持最长达 32768 token 的输出，使用 no_repeat_ngram_size 和 ngram_window 参数控制生成质量，避免重复输出。还内置了 PDF 转图片的工具方法，可以一键处理整个 PDF 文档。

如何上手

使用 Hugging Face Transformers 调用非常简单：

from transformers import AutoModel, AutoTokenizer

model_name = 'baidu/Unlimited-OCR'
tokenizer = AutoTokenizer.from_pretrained(model_name, trust_remote_code=True)
model = AutoModel.from_pretrained(model_name, trust_remote_code=True)

model.infer(tokenizer, prompt='<image>document parsing.',
            image_file='your_image.jpg', output_path='output_dir')

如果需要更高性能的部署，还可以使用 SGLang 启动服务，支持多并发请求。

适用场景

与传统的行级 OCR 不同，Unlimited-OCR 更适合需要理解文档整体布局的场景：发票识别、合同解析、学术论文 OCR、历史档案数字化等。它的"一次扫描"特性意味着不需要对文档做预处理分割，大幅简化了 OCR 流水线。

对于国内开发者来说，百度的这个开源项目还有一个额外优势——对中文文档的识别效果通常优于海外开源模型。

参考来源

Unlimited-OCR — GitHub