扩散模型成最快深度思考
首个会深度思考的扩散模型来了!
抛弃自回归范式,一举成为世界上生成速度最快的模型。
你瞅瞅,对比之下传统自回归的“打字机模式”(按顺序一个个token往外吐)是不是就有点像乌龟了:
实际测评显示,这款名为Mercury 2的扩散推理LLM在英伟达GPU上可实现1009个tokens/s。
这个速度整整比GPT-5(mini)和Claude-4.5(haiku)这些传统模型快了5倍。
so,Mercury 2是谁?它又是如何突破速度瓶颈的呢?网页链接


扩散模型成最快深度思考
首个会深度思考的扩散模型来了!
抛弃自回归范式,一举成为世界上生成速度最快的模型。
你瞅瞅,对比之下传统自回归的“打字机模式”(按顺序一个个token往外吐)是不是就有点像乌龟了:
实际测评显示,这款名为Mercury 2的扩散推理LLM在英伟达GPU上可实现1009个tokens/s。
这个速度整整比GPT-5(mini)和Claude-4.5(haiku)这些传统模型快了5倍。
so,Mercury 2是谁?它又是如何突破速度瓶颈的呢?网页链接

