多模态推理新突破一、技术背景OpenAI的o3模型突破传统文字思维链,实现图

春蕴评趣事 2025-05-31 15:21:52

多模态推理新突破

一、技术背景

OpenAI的o3模型突破传统文字思维链,实现图像直接融入推理过程,具备“用图思考”能力。小红书与西安交大联合开发DeepEyes模型,通过端到端强化学习复现类似功能,并开源技术细节。

二、核心创新

1. 动态视觉聚焦:模型在推理中自主调用图像信息,实现“边看边想”。

2. 无监督训练:仅通过强化学习激发能力,无需监督微调(SFT)。

3. 工具调用优化:内置视觉定位与裁剪功能,减少依赖外部工具。

三、技术实现

1. 架构设计:基于多模态模型,加入自驱动视觉聚焦机制。

2. 训练策略:采用outcome-based奖励函数,分阶段优化工具使用。

3. 数据集构建:筛选难度适中、工具增益显著的问题样本。

四、性能表现

1. 基准测试:V* Bench准确率达90.1%,超越传统工作流方法。

2. 跨任务能力:在视觉搜索、数学推理等任务中表现优异。

五、优势对比

1. 训练简化:仅需问答对数据,降低门槛。

2. 泛化性强:动态选择推理路径,适应开放任务。

3. 端到端优化:全局联合训练避免次优解。

0 阅读:9
春蕴评趣事

春蕴评趣事

感谢大家的关注