众力资讯网

V4-Pro引擎在50 token/s SLA下吞吐量能提升406%,北大和De

V4-Pro引擎在50 token/s SLA下吞吐量能提升406%,北大和DeepSeek这个DSpark推理框架有点东西。它核心是用轻量草稿模型批量生成候选,并靠置信度分数动态调度验证,把无效计算压到最低。从自回归解码的“一步一卡”,到能智能预判和调度,这是推理效率一次非常务实的工程突破。MIT开源,适配主流模型,实用性很强。 北大与DeepSeek联合开源DSpark