
【导读】如何客观衡量具身智能算法的真实水平,一直是困扰学术界与产业界的难题。没有真机测试,就没有真正的具身智能。
作者 | 小葳
一台机械臂在桌面上灵巧地抓起积木,精准地放入对应颜色的区域,系统对机器臂的表现实时精准评分,这一幕正在北京的一个具身智能实验室内发生,但控制它的算法可能来自千里之外的硅谷或苏黎世。
在具身智能浪潮席卷全球的今天,如何客观衡量具身智能算法的真实水平,一直是困扰学术界与产业界的难题。
在人工智能波澜壮阔的发展史上,从ImageNet之于计算机视觉,到GLUE之于自然语言处理,基准测试(Benchmark)始终扮演着技术进步的灯塔与标尺。然而,在具身智能领域,真实物理环境下始终缺乏统一、开放且可复现的基准测试方法。
2025年10月15日,Dexmal 原力灵机联合 Huggingface共同发起全球首个大规模、多任务的在真实物理环境中由真实机器人执行操作任务的基准测试RoboChallenge。其为具身智能模型在机器人的实际应用提供更加开放和透明的评估标准,并创新推出远程测试模式,推动具身智能正式迈入大规模、标准化的真机评测时代。

长期以来,具身智能的发展陷入一个看似矛盾的局面:算法在仿真环境中表现卓越,一旦落地真实场景,却屡屡受挫。其根源在于仿真与现实之间存在一道难以跨越的“鸿沟”。
过去数十年来,仿真环境虽为算法迭代提供了便利,却无法完全复刻真实世界的复杂性。物理参数的微妙偏差、环境的不确定性、物体材质的多样变化,以及传感器噪声等现实变量,共同构成了仿真器难以逾越的瓶颈。
这导致了一个严峻的现实:仿真高分不等于现实可用。随着具身智能技术走进越来越多工业、家居场景,这种“纸上谈兵”的测试模式,已成为制约具身智能从实验室走向产业化应用的核心障碍。
在RoboChallenge出现之前,各个研究团队或企业通常在自建的、非标准化的封闭环境中测试自己的模型。这导致了几个严重问题:
首先,研究成果之间难以进行公平、透明的横向比较;其次,实验结果难以被第三方复现,阻碍了学术交流与技术迭代;最后,对于产业界,缺乏客观的评估标准使得技术选型和投资决策变得异常困难。
具身智能的下一程,必须建立在真实机器人在真实环境中的执行能力之上。真正的智能不应停留在仿真得分,而应体现在物理世界中每一次抓取、每一次移动的精准与鲁棒。只有建立起经得起现实检验的评测体系,具身智能才能走出虚拟高分的光环,在真实的物理场景中扎根生长。

在具身智能迈向真实世界应用的过程中,一个核心挑战始终悬而未决:如何建立一套既公平又可复现、同时兼顾泛在性的真机评测体系?
RoboChallenge正是在这一背景下应运而生,它由具身智能企业Dexmal原力灵机与全球最大开源AI社区Hugging Face共同发起,以“开放、中立、第三方”为原则,致力于打造全球公认的机器人算法“统一考场”。

为实现真正意义上的“同台竞技”,RoboChallenge构建了业界领先的标准化机器人测试环境。平台集成了一支由10台真实机器人组成的测试队伍,涵盖UR5、Franka Panda、COBOT Magic Aloha与ARX-5四种主流机型,每台均配备多台RealSense RGBD摄像头作为标准传感方案。
研究者无需自行部署硬件,只需通过一组精心设计的在线API,即可获取带精确时间戳的观测数据并执行控制命令,从根本上消除了因硬件差异导致的评测偏差。

Table30:小桌面大考验,重新定义机器人能力标尺
作为RoboChallenge推出的首套基准测试集,Table30在看似简单的桌面环境中,系统性地构建了30项日常情境任务,其规模远超行业常见的3–5个任务。这些任务围绕四大维度科学构建:VLA解决方案难点、机器人类型、任务场景与物体属性。

Table30任务列表
Table30的深层价值在于它对机器人核心能力的全面考察:
精确的3D定位:考验模型对空间的细粒度理解;
遮挡与多视角协同:要求算法综合利用多摄像头信息;
时间依赖与多阶段记忆:挑战模型对任务进度的记忆与规划;
双臂协作与软体操作:检验其在复杂交互中的泛化能力。
Pi0.5-30tasks
测试表明,在主流开源VLA模型中,Pi0.5表现最优,但仍无法胜任所有任务。这印证了RoboChallenge基准是迈向通用机器人技术的必要检验。
此外,各模型的SR累积分布(下图)呈现出相似的斜率,表明任务难度分布均匀。未来,性能更强的模型预计将推动曲线向右上方移动。

值得一提的是,Table30彻底突破了传统“成功/失败”的二元评价,创新性地引入多阶段进度评分系统。该系统将任务划分为多个阶段,根据完成情况授予进度点,并对不必要的重试行为进行扣分。即使最终未完全成功,其过程中的有效进展也能被客观衡量。
“远程测试”:没有机器人,一样做真机实验
RoboChallenge另一大创新,就是“远程机器人”测试方法。它通过云端化服务和标准化的API接口,彻底打破了机器人测试的硬件资源限制。
研究者无需购买和维护昂贵的机器人设备,只需通过网络提交自己的算法模型,即可在平台进行在线真机测试和验证。这一模式,极大地降低了全球研究者的参与门槛,使高精度的真机实验变得前所未有的便捷和普惠。
远程测试视频
全面开放与透明:构建可信赖的评测生态
为确保评测的公平与可复现,RoboChallenge采用了视觉输入匹配方法,通过实时比对参考图像来精确重置任务初始状态,保证每次测试的起点完全一致。
平台坚持全面开放原则,不仅免费提供评测服务,更公开所有任务的演示数据(每个任务提供高达1000条轨迹)、测试中间结果与执行日志,真正实现了研究的可复现、可验证与可追溯。

作为一项关键的基础设施突破,RoboChallenge的推出预计将从学术研究、产业落地与生态共建三个层面,深刻影响具身智能领域的发展路径与竞争逻辑。
对学术界:降低硬件门槛,加速科研创新
研究人员无需自行搭建和维护昂贵的实体机器人系统,即可在真实物理环境中验证算法性能。这一模式将显著降低科研门槛,尤其有利于资源有限的高校与初创团队,推动研究重心从“硬件集成”回归“算法创新”。更重要的是,其标准化测试环境与公开数据集为领域内建立科学、统一的评估标准奠定基础。
对产业界:建立可信基准,加速技术商业化
对企业和投资机构而言,RoboChallenge能够量化评估不同算法在真实场景下的鲁棒性、泛化能力与完成效率,为技术选型、产品迭代与投资决策提供跨模型可比的数据支撑。这将有助于减少因评测标准不一导致的“技术夸大”或“评估盲区”,推动产业资源向经过真实验证的高价值技术集中,加速具身智能产品走向市场。
对生态圈:共建行业标准,繁荣开发者生态
RoboChallenge有望成为连接全球具身智能研究力量的枢纽。其公开的排行榜、任务数据与评估方法,将吸引全球顶尖的开发者参与其中,共同解决具身智能的核心难题,最终构建一个繁荣、协同创新的全球开发者生态。
结语:一个时代的开始RoboChallenge的推出,不仅仅是一项Benchmark的发布,更是具身智能发展中的一个重要分水岭。
它标志着具身智能从依赖仿真环境的“实验室阶段”,正式迈入了基于真实物理世界、具备统一标尺的“规模化真机评测时代”。
未来,随着移动操作平台、灵巧手等更多硬件的引入,以及动态环境适应、长期规划等更复杂测试任务的推出,RoboChallenge将持续拓宽评测维度的边界,推动技术向更高阶的通用智能迈进。
END
本文为「智能进化论」原创作品。