OpenAI模型推理成本降半当地时间7月1日，OpenAI确实通过系统底层优化与

OpenAI模型推理成本降半

当地时间7月1日，OpenAI确实通过系统底层优化与自研专用芯片双重路径，实现了模型推理成本降低50%以上的目标。

一、核心降本路径

1.系统底层优化：依托全新调度算法提升服务器资源利用率，无需新增大量计算芯片即可压缩英伟达GPU需求，部分场景下所需GPU数量大幅减少。

2.自研ASIC芯片落地：与博通联合研发的代号“Jalapeño”（墨西哥胡椒）专用推理芯片已流片成功，该芯片针对大模型推理从零设计，摆脱通用GPU架构束缚，预计同等算力下推理成本直接降低约50% 。

3.模型架构迭代：结合MoE（混合专家）稀疏激活架构与动态剪枝技术，仅激活必要参数模块，避免无效计算，进一步摊薄单次请求成本。

二、关键影响

1.算力依赖转移：降低对英伟达通用GPU的依赖，掌握自主算力源头，削弱外部硬件产能与定价权的制约。

2.商业应用空间：节省的成本可用于降低API定价或提高免费/付费用户的调用限额，推动AI服务向“水电级”可负担水平迈进。

具体降幅因任务复杂度、模型版本及部署场景而异，上述数据基于内部测试及行业披露信息。

新闻速报邢台·卫生局家属院

众力资讯网