众力资讯网

阶跃星辰 智谱清言 智谱ai minimax市值突破800亿港元 大模型 人工智

阶跃星辰 智谱清言 智谱ai minimax市值突破800亿港元 大模型 人工智能 人工智能 阶跃星辰近一年成立多家新公司 :《阶跃速度封神:中国大模型三强同台,谁在真正定义Agent时代?》 一道强光,划过2026年初夏的开发者社区

2026年6月初的某一天,一个中国模型的名字悄然出现在海外开发者社区的热搜榜顶端,停留在那里,吸引着全球工程师的目光。

Step 3.7 Flash——阶跃星辰于5月29日发布并开源的最新基座模型——在上线仅两天后,便登上OpenRouter Trending全球排行榜第二位。随后,它在Artificial Analysis权威评测平台的输出速度榜以409 Tokens/s夺得主流模型第一,同时在端到端响应时长、智能效率、速度价格比三项关键指标上全面领跑。一周之内,多个"第一"的标签密集贴上这个名字。

中国大模型,罕见地在海外引发了一场集体注目。

然而,就在聚光灯最亮的那个时间窗口里,竞争对手的牌已悄然落桌。Step 3.7 Flash发布的五天前,同属"AI六小龙"的智谱已率先推出GLM-5.1高速版API,输出速度同样标定在400 Tokens/s;发布仅三天后,MiniMax携全新通用模型M3强势卡位,祭出百万Token超长上下文、前沿编程能力与原生多模态的"完整能力组合"。三家公司,三张牌,在同一个时间窗口内依次落地。

这个窗口本身,已经说明了一切。

快思慢想研究院院长田丰的判断直截了当:400 Tokens/s是当前推理系统工程的技术收敛点,而非任何一家公司的独占优势。

一、稀疏架构的“速度美学”

理解Step 3.7 Flash,需要先读懂阶跃星辰这次押注的完整技术逻辑。

该模型采用稀疏MoE(混合专家)架构,总参数196B加上1.8B的视觉编码器(ViT),但激活参数仅约11B。换言之,每次推理真正被"唤醒"工作的参数量,只占全量参数的约5%。以11B激活参数撑起400 Tokens/s的生成速度,是MoE稀疏激活机制与推理工程协同优化的有效验证,技术上值得认可。

然而阶跃对Flash路线的押注,远不止于追求一个速度数字。

"高效率Flash模型将不再是旗舰模型的补充,而会成为AI生产化时代最重要的基础模型形态之一。"这是阶跃星辰对自身战略方向的核心判断。其背后的逻辑,建立在对Agent时代成本结构的精准洞察之上:在企业级Agent部署场景中,一个端到端工作流通常包含10至50次大模型调用;生产环境的真实约束是总延迟与总成本,而非单次推理峰值。从这一视角出发,阶跃押注"单位成本下的有效智能",具有清晰的工程合理性。

为了让这一判断落地,Step 3.7 Flash围绕生产级Agent场景优化了四项核心能力:

原生多模态理解执行:可识别图表、软件界面、驾驶面板,并拆解实操步骤;联网与视觉搜索增强:图像与全网检索能力,对不确定信息可自主交叉核验;高稳定性工具调用与编排:支持浏览器、终端、办公软件等多达66类工具的连贯调用;全生态适配主流Agent开发框架:兼顾云端商用与本地轻量化部署。在工具调用的实测数据上,Step 3.7 Flash在τ²-bench(一款面向大语言模型对话智能体的评测基准工具,测试模型在用户、工具、数据库三方交互中的一致性与抗错能力)电信客服场景的低、中、高三档推理难度下,通过率均超过98%。田丰认为,τ²-bench是目前最贴近生产级Agent场景的工具调用基准之一,98%的得分具有真实参考价值。

然而,这里有一盆必要的冷水需要泼下:τ²-bench的测试集中于零售、航空、电信等结构化行业场景,对现实Agent工作流中的长尾挑战——非结构化API调用、动态上下文切换、多工具串联失败后的恢复——覆盖明显不足。OpenRouter数据同样耐人寻味:Step 3.7 Flash发布一周内,周Token消耗量约为566K,属于中等活跃水平,尚不足以判断规模化生产采用是否真正到来。

真正值得追踪的信号,是未来数月内Step 3.7 Flash能否在OpenRouter工具调用模型榜单中稳定跻身前三,并维持持续增长的调用曲线。

Dario Amodei曾将基础模型的竞争比作"能力前沿的集体攀升"——当多个团队同步触及同一技术天花板,先发优势只能以生态密度来兑现。 阶跃速度封神:中国大模型三强同台,谁在真正定义Agent时代?