吞吐提升最高400%,DSpark把“小模型打草稿、大模型做校验”的推测解码玩出了新花样。它不固定草稿长度,靠置信度调度动态决定哪部分该精算。实测里V4 Pro响应提速近80%,这才是真·推理优化。关键它不挑模型,Qwen、Gemma上也有效,MIT开源。这思路比堆硬件更聪明,是软硬协同的典型范例。 DeepSeek发布DSpark

吞吐提升最高400%,DSpark把“小模型打草稿、大模型做校验”的推测解码玩出了新花样。它不固定草稿长度,靠置信度调度动态决定哪部分该精算。实测里V4 Pro响应提速近80%,这才是真·推理优化。关键它不挑模型,Qwen、Gemma上也有效,MIT开源。这思路比堆硬件更聪明,是软硬协同的典型范例。 DeepSeek发布DSpark
