百度昨天刚开源了一个很牛的 OCR：Unlimited OCR 看完技术报告，

百度昨天刚开源了一个很牛的 OCR：Unlimited OCR

看完技术报告，核心就一句话：它让 AI 像人类一样"抄书"。

✅️ 完整图像信息始终可见，不会丢
人类抄书时眼睛始终能看到原书，R-SWA 让每个生成的 token 都能 attend 到所有视觉 token，视觉特征不会像传统滑动窗口那样逐步模糊。
✅️ 输出端只保留最近 128 个 token
就像人类只会偶尔瞄一眼刚写的几个字确认进度，不会把整本书背下来。这个设计让模型自主追踪解析进度，实现"软遗忘"。
✅️ KV Cache 恒定，一次前向推理直接转录数十页
没有分段，没有拼接，没有"忘了前面写了什么"的尴尬。32K 标准上下文下，整篇论文丢进去一次性输出。

📊 更狠的是性能
从视频演示看，它直接把整篇技术报告（十几页）丢进去，一次性输出完整结构化结果——标题、正文、表格、公式、参考文献，全部精准还原。延迟还不随页数增长，传统全注意力越往后越慢，R-SWA 全程稳定。

众力资讯网

百度昨天刚开源了一个很牛的 OCR：Unlimited OCR 看完技术报告，

热门分类