众力资讯网

V4-Pro引擎在50 token/s SLA下吞吐量能提升406%，北大和De

2026-06-27 19:01:03 小茜Daisy 科技

V4-Pro引擎在50 token/s SLA下吞吐量能提升406%，北大和DeepSeek这个DSpark推理框架有点东西。它核心是用轻量草稿模型批量生成候选，并靠置信度分数动态调度验证，把无效计算压到最低。从自回归解码的“一步一卡”，到能智能预判和调度，这是推理效率一次非常务实的工程突破。MIT开源，适配主流模型，实用性很强。北大与DeepSeek联合开源DSpark

阅读：1 点赞：0

V4-Pro引擎在50 token/s SLA下吞吐量能提升406%，北大和De

热门分类