众力资讯网

小米 MiMo-V2.5 系列开测:硬刚 Claude Opus 和 GPT-5

小米 MiMo-V2.5 系列开测:硬刚 Claude Opus 和 GPT-5.4,这次是真的猛

距离上一代发布仅过去 36 天,小米昨天(4 月 23 日)正式官宣 MiMo-V2.5 系列开启公测,一口气放出四款模型——基座版 MiMo-V2.5、旗舰版 MiMo-V2.5-Pro,以及语音线的 V2.5-TTS 和 V2.5-ASR。其中前两款将很快全球开源。

先说最炸的几个亮点:

一、旗舰版 V2.5-Pro 真能打。 官方给出的跑分对标的是 Claude Opus 4.6 和 GPT-5.4,在 SWE-bench Pro 上拿到 57.2 分,τ3-Bench 72.9,已经挤进全球第一梯队。更离谱的是长程任务能力——模型能连续跑上千轮工具调用不掉链子。

二、两个实测案例让人印象深刻。 一个是北大编译原理课程项目:用 Rust 从零写一个完整的 SysY 编译器,本科生通常要写好几周,MiMo-V2.5-Pro 用 4.3 小时、672 次工具调用直接满分通关(233/233)。另一个更夸张:仅靠"做一个视频编辑器 Web 应用"这么一句话,模型自主工作 11.5 小时、调用工具 1868 次,交付了 8192 行可运行代码,带多轨时间线、剪辑、淡入淡出、音频混音一整套功能。

三、基座版 V2.5 全模态打包。 原生支持看图、听音、读视频,1M 上下文拉满。在 Video-MME 上拿到 87.7 分,和 Gemini 3 Pro(88.4)几乎打平,多模态 Agent 能力直接把上一代旗舰 V2-Pro 给反超了。

四、价格和效率是真香。 同等效果下,V2.5-Pro 比 Kimi K2.6 省 42% 的 token,V2.5 比对标模型省近一半。Token Plan 也做了重构:取消了 1 Token=4 Credits 的"惩罚性计费",256K 和 1M 上下文不再区别定价,还加了夜间闲时优惠,综合调用成本大概降了一半。

小米 MiMo-V2.5 系列从 V2 到 V2.5 只用了 36 天,迭代节奏在国内大模型厂商里算是比较狠的。更值得关注的是战略层面——当 AI 渗透到手机、汽车、智能家居这种端侧场景,模型效率(同等任务用更少 token)的重要性会直接超过"跑分第一"。这也是小米作为硬件厂商做大模型,和纯 AI 公司最大的区别:它不一定需要最强,但必须最能"跑在设备上"。

对开发者来说,下一步值得关注的就是开源那一下——毕竟 V2.5 和 V2.5-Pro 官方说了要全球开源。如果真兑现,又是一轮新的折腾素材。