百度昨天刚开源了一个很牛的 OCR:Unlimited OCR
看完技术报告,核心就一句话:它让 AI 像人类一样"抄书"。
✅️ 完整图像信息始终可见,不会丢
人类抄书时眼睛始终能看到原书,R-SWA 让每个生成的 token 都能 attend 到所有视觉 token,视觉特征不会像传统滑动窗口那样逐步模糊。
✅️ 输出端只保留最近 128 个 token
就像人类只会偶尔瞄一眼刚写的几个字确认进度,不会把整本书背下来。这个设计让模型自主追踪解析进度,实现"软遗忘"。
✅️ KV Cache 恒定,一次前向推理直接转录数十页
没有分段,没有拼接,没有"忘了前面写了什么"的尴尬。32K 标准上下文下,整篇论文丢进去一次性输出。
📊 更狠的是性能
从视频演示看,它直接把整篇技术报告(十几页)丢进去,一次性输出完整结构化结果——标题、正文、表格、公式、参考文献,全部精准还原。延迟还不随页数增长,传统全注意力越往后越慢,R-SWA 全程稳定。