众力资讯网

【全新 OCR 暗藏关键线索,疑似招揽 DeepSeek 核心研发大牛】 百度

【全新 OCR 暗藏关键线索,疑似招揽 DeepSeek 核心研发大牛】

百度刚悄摸开源了Unlimited OCR,6月22日,GitHub和Hugging Face全都同步上线,老实说看完技术思路,不少搞AI的朋友都感慨,百度现在做事画风完全变了,明显在憋后手,文心接下来真的很有看头。

市面上普通OCR大家应该都深有体会,处理长篇资料只能一页翻一页识别,每翻一页就清空之前的内容,连贯性特别差。但Unlimited OCR的切入点很有意思,它似乎在刻意模仿人类“抄书”时的认知模式——我们抄字不会死死记住前面所有内容,只会瞟两眼就近文字防止写串行。它在32K上下文条件下,单次前向推理就能完成几十页文档转录,推理过程KV缓存大小保持固定,既节省算力又解决长文本割裂问题,前瞻属性拉满。

不过比起亮眼技术,技术报告里的一些“小细节”反倒成了圈内热议的焦点。之前DeepSeek发V4模型的时候,长长的作者名单里标了十个带星号的离职人员,短短大半年,核心人员走了不少。再看这次Unlimited OCR作者:Youyang Yin,Huanhuan Liu*(*为项目leader),YY†(†为技术总监),三个人里两个写完整名字,偏偏技术总监只写了个缩写YY,神秘感直接拉满。

更有意思的是,项目开源致谢的前两位,刚好是DeepSeek-OCR和DeepSeek-OCR-2。查过相关资料就能发现,两代DeepSeek OCR从头到尾就是固定三个人做核心研发,国内真正吃透这套架构,还能在此基础上设计出这种新机制的人,本来就没多少。而且整篇论文喜欢用故事引出创新想法,思路大胆激进,这本来就是 DeepSeek 技术报告很有特点的文风!

种种细节凑一块,很难不联想一下,百度是不是专门挖来了DeepSeek负责OCR的核心骨干,这个代号YY的负责人,会不会就是之前从那边出走的关键人物?

如果这个猜测是真的,那这次可不只是一次简单开源,两家AI团队的人才暗战,估计后续还有不少瓜可以吃。
百度 文心 文心大模型 DeepSeek OCR ai AI大模型 科技 AI技术