众力资讯网
男朋友问我GRPO和PPO相比孰优孰劣
2026-02-13 00:11:38
奔跑的跳跳
科技
GRPO 最早是在 DeepSeek-Math 里露脸的,也是DeepSeekR1能火起来的重要秘诀。相比PPO这种传统做法,GRPO 直接把评估模型给干掉了,换成了组内相对奖励,不仅省算力,还稳如老狗,训练不容易炸。
它的思路很简单,就是针对每个输入生成一组输出,然后在每个小组里算相对奖励值,主要是看组内谁强谁弱,优化策略的时候就按照这个来,而不是像RLHF那样靠评估模型打分。这样省去了维护评估模型的麻烦,计算负担直接减轻不少,跑起来更快。
除此之外,GRPO 直接在损失函数里加了KL散度正则化,不像PPO那样在奖励里搞一堆 KL罚项,细粒度控制策略更新,调整幅度更丝滑,保证策略不会乱飘,属于是 PPO 的加强版了。
猜你喜欢
寒毛直竖!被生育的真相暴击了。。。
2026-06-28
囤货种草娱乐
标签:
貂蝉
游戏攻略
《英雄无敌3》的世界观属于传统西方奇幻吗?小编最近玩游戏时突然想到一个问题:英
2026-06-27
游戏侯砸说游戏
标签:
英雄无敌3
魔法门
感觉AG确实彻底放下王朝包袱了,不再害怕输了。其实一直到上个赛季,AG这五人组加
2026-06-26
小嬷王
标签:
ag战队
kpl
王者荣耀
kpl
英雄联盟担心的一种BLG输法!加强版的WE打法,第一个bo5可以说BLG大意,
2026-06-28
茜茜说游戏
标签:
blg
英雄联盟
msi
炉石传说两把梵妮莎直接带走B大哥,梵妮莎毁了现开赛!
2026-06-28
吉派说游戏
标签:
炉石传说
谭涛
pc端卡牌类
2026未来运动会公布了刀塔项目的参赛战队名单,由于众所周知的政治原因欧洲一线强
2026-06-28
代云说游戏
标签:
刀塔
运动会
在IGN根据合作推广链接(AffiliateLinks)统计称,《GTA
2026-06-28
单机小酱
标签:
侠盗猎车手
ign
Xbox
根据外媒Circana的分析师MatPiscatella提供的数据,Switc
2026-06-27
单机小酱
标签:
游戏攻略
热门分类
推荐
热榜
军事
NBA
体育
社会
明星八卦
娱乐
财经
科技
汽车
历史
国际
游戏
动漫
公益
搞笑
商业
互联网
数码
国际足球
房产
家居
时尚
科学探索
职场
育儿
股票
教育
影视
情感
热点
中国军情
武器
中国南海
中国足球
亚洲杯
科比
综合体育
CBA
投资
楼市
大咖秀
外汇
创业
风口
SUV
豪车
概念车
优惠
新能源
美国
欧洲
朝日韩
俄罗斯
孕期
街拍
恋爱攻略
婚姻
正能量