让4B小模型逼近235B性能新配方让4B小模型赶超Claude4
4B模型的数学推理能力和顶尖商业大模型差在哪里?
香港大学NLP团队联合字节跳动Seed、复旦大学发布名为Polaris的强化学习训练配方:
通过Scaling RL,Polaris让4B模型的数学推理能力(AIME25上取得79.4,AIME24上取得81.2)超越了一众商业大模型,如Seed-1.5-thinking、Claude-4-Opus和o3-mini-high(25/01/31)。
并且,Polaris-4B的轻量化允许在消费级显卡上部署。
了解更多细节,欢迎点击文章👇