众力资讯网

“机器人行业缺的是底层工具创新”,对话新加坡国立大学石凡

AI、机器人和未来。 石凡与机器人的结缘,始于一个 AI 还远非热词的年代。2012 年,他还在北京大学读本科时,对无

AI、机器人和未来。

石凡与机器人的结缘,始于一个 AI 还远非热词的年代。2012 年,他还在北京大学读本科时,对无人驾驶产生浓厚兴趣。彼时,谷歌的自动驾驶项目刚刚冒头。“那时候机器人整体包括 AI 还是一个非常不火的话题,”他回忆道,“大多数人都不感兴趣。”

之后十多年,他的科研轨迹一路跨越北京、东京、苏黎世和新加坡。从北京大学初识无人驾驶的萌芽时代,到东京大学亲历上一个人形机器人的黄金时期;从苏黎世联邦理工学院感受产学研结合的务实风格,再到新加坡国立大学开启独立带团队的学术生涯。石凡的学术轨迹,几乎与过去十余年全球机器人技术的发展浪潮同频共振。

如今,石凡是新加坡国立大学的助理教授,也是 Human-Centered Robotic Lab(HcRL,以人为本机器人实验室)的负责人,他获得了 NUS 校长青年教授奖的支持,其实验室也先后得到 NVIDIA Academic Grant Award、Google 等科技公司以及新加坡教育部等政府机构的资助。

在采访中,他的语速平和,思路清晰,偶尔会因一个久未使用的中文词汇稍作停顿,但话语间流淌的,是跨越了中国、日本、瑞士和新加坡四国科研体系后沉淀下的独特视角与冷静思考。

“科研须解决痛点,也必须大胆”

问芯:亲历四个不同的科研体系和文化氛围,你感受到最大的差异是什么?

石凡:从我的经验来看,即便在同一个国家内部,不同机构之间往往也存在明显差异。哪怕是在同一所大学中,不同的实验室也会有完全不同的文化取向和擅长方向。因此,我的总结难免带有一定的主观性。

整体来说,日本科研文化非常强调“创新”,尤其重视某项工作是否能够被称为“世界首次”。这种追求不仅体现在科研领域,在各类科技活动和展览中也常常会强调“世界第一次”的概念。

瑞士则呈现出另一种特点:同样重视创新,但更加注重务实。在瑞士的科研环境中,可以看到许多实验室与产业紧密关联,孵化出大量成功的机器人创业公司。我认为,这与瑞士长期以来对产学研链条的建设密不可分,这种体系并非一朝一夕建立,而是几代研究者持续努力的结果。

问芯:你现在做 PI,觉得自己的风格会更像哪一个科研体系?

石凡:我个人的科研风格更像是几种体系的综合体,这主要是因为不同年代有不同的机会与特点。早些年,AI 和机器人并不是热门领域,那时从事相关研究的人大多仍在学术界,圈子相对封闭。而如今,工业界在这一领域的参与度显著提高,很多企业甚至拥有比学术界更充足的资源,也深度介入研究前沿。

在不同阶段,科研者面临的机遇与挑战自然也不同。以当下的时代背景来看,我自己的观点是:科研必须做到足够“新”,同时又必须具有实际意义。如果研究内容不够突破、不够大胆,在工业界去推动就好了,在大学里做下去的意义并不大。因为一旦方向趋于保守,企业凭借更强的人力、资金与算力,很容易在同样的轨道上跑得更快,大学在这样的竞争中就无法体现自身价值。

但反过来,单纯为了“新”而“新”也没有意义。过去机器人离日常生活较远,做一些“纯创新”的尝试问题不大;但如今机器人和AI 与现实世界的连接越来越紧密,如果只追求形式上的新颖,就可能偏离更重要的目标,甚至显得有些舍本逐末——热闹一时,却缺乏长期价值。

问芯:从你的求学经历中可以看出,你的成长轨迹恰好跨越了机器人和 AI 行业发展的关键阶段。基于这样的视角,你怎么看待过去十余年间整个机器人行业所经历的变化?在这些变化中,哪些突破让你感到最为振奋?

石凡:我个人经历的行业发展跨度大约是从 2012 年至今,十多年时间。相较于那些见证了三十年起伏的前辈,这段时间并不算长,但其中的变化依然非常鲜明。

在我看来,首先也是最重要的变化,不是 AI 本身,而是更便宜、更好用的硬件大量涌现。其中相当一部分要归功于中国企业的努力。以宇树科技为例,它让四足机器人平台变得价格可控、性能可靠;再往前看,大疆及其衍生出来的完整产业链,也让全球重新认识了“中国制造”——不只是便宜,而是好用且价格合理。

硬件民主化之后,能进入机器人研究的人立即变多了。如今,无论是机器人专业的学生,还是环境科学、建筑、化学化工等完全不同学科的研究者,都可以直接购买成熟平台,开展各自的研究。

除了硬件,软件的变化同样重要,而其中最核心的是开源社区的兴起。最早的例子是机器人操作系统(ROS)。在我们读博士时期,几乎所有机器人都运行在 ROS 上,它为研究者提供了成熟的底层软件框架,大幅减少重复造轮子的成本,让不同的机器人平台能够迅速适配和开发,从而极大提高科研效率。

近年来,AI 模型和学习方法的开源趋势进一步加速了整个领域的研发节奏。开源不仅让工具更加普及,也让最新成果可以被迅速复用与扩展,使机器人研究的推进速度相比十年前不可同日而语。

“大家都拿同一把锤子,很难敲出不一样的东西”

问芯:作为研究者,你如何看待当前由资本、媒体以及大模型开源等共同推动的这股机器人热?它为行业带来的是实质性的推动,还是在某些方面可能也会引发一定的浮躁?

石凡:从整体和宏观角度来看,当前机器人行业受到更多关注、大量资金投入,并且吸引越来越多优秀的年轻人加入,我认为对这个领域无疑是一件好事。

当然也确实存在一定的泡沫现象。实际上,不少资深的 AI 从业者也在公开场合提醒大家警惕潜在的泡沫,这种讨论在业内是存在的。

对我个人而言,衡量这一波热度究竟是利大于弊,还是反之,其核心标准仍然是:我们所做的事情是否真正解决了实际需求?以及在解决需求的过程中,是否尽量减少了不必要的负外部性。从更本质的角度说,就是这些技术的发展能否让人类整体获得更大的幸福感。我更倾向于以此作为判断依据。

问芯:回到你实验室的研究,你希望去解决怎样的需求?

石凡:我们实验室名为 Human-Centered Robotics Lab,中文是“以人为本的机器人实验室”。之所以采用这个名字,是因为背后有我们坚守的理念:我们希望机器人能够真正改善人类的生活,为人带来更高的幸福感,而不是只是为了竞争更低的用工成本服务于更大的资本利益,从而忽视人的感受加剧不平等。

从研究方法上讲,我们并不倾向于做所谓的增量式的小改进。例如别人已经实现了 A,我们不希望只是把它扩展到 A 的 1.1 或 1.2。更感兴趣的是那些突破性成果:以往大家认为从 A 推到 B 是不可能的,而我们希望通过团队的努力、创造力和技术积累,搭建出通向 B 的“梯子”,让原本不可行的事情变得可能。

同时,我们也希望这些突破不仅有科学意义,更能对机器人学本身,甚至对人类社会,带来实质性的正向推动。

问芯:能否分享一下实验室在 2025 年的成果?

石凡:我们确实在过去一年里取得了很多令人振奋的进展,但由于部分成果尚未正式发表,目前还不便详细公开。不过从整体上讲,我们的核心目标依然延续了刚才提到的理念:希望推动一些更大、更本质层面的创新。

那么,这类创新从何而来?创新绝不可能“无米之炊”。如果希望在应用层面实现重大突破,我们非常坚定地认为,必须首先在底层技术上有所创新。以机器人为例,如果所有人共享同一套底层工具——使用同样的模拟器、同样的平台、同样的训练和控制框架——那么在上层要做出真正颠覆性的创新几乎是不可能的。大家手里握着的都是同一把“锤子”,自然难以敲出完全不同的成果。

因此,在 2025 年,我们将主要精力投入到底层的关键技术突破上。这些成果大多来自实验室的博士生和博后,他们完成了许多非常出色、也令人激动的工作。基于我们一直坚持的理念——只有先把底层工具焕新,构建出更强大、更高效的基础设施,才能在此之上产生真正的突破性创新,甚至可能改变大家对于机器人研究的一些基本认知。

问芯:具体指哪些方面?

石凡:关于目前可以公开的进展,我可以简单介绍一下。今年我们在 SIGGRAPH 2025 以及多个相关研讨会上发表了一系列成果,主要集中在仿真——也就是机器人模拟器——这一底层领域。我们实验室的博士后和博士罗思源和曾子秋等同学在这方面取得了非常重要的突破,尤其是在可变形物体模拟这一长期具有挑战性的方向上。

我们的最新成果是一款可变形物体模拟器,它在性能和精度上都有非常显著的提升。这一突破性的底层能力,为我们在安全学习、鲁棒控制等上层方向开展更具差异化的研究奠定了坚实基础,也使得我们在某些方向上具备了短期内难以被复制的先发优势。随着其他尚未发布的工作逐步对外公开,我相信在明年初,大家会看到更多能够支撑上层创新的新成果。

我们相信,这类底层技术的创新将极大推动上层研究的进展,使研究者能够以全新的视角理解和处理复杂的交互场景,也为未来可能的应用打开更多可能性。

为什么要让机器人“故意出错”?

问芯:在之前的研究里,你用强化学习生成对抗性攻击,让机器人故意出错。为什么要做这样一件事?

石凡:如果结合当时的行业背景来看,在 2019 到 2024 年期间,随着 ETH 、NVIDIA 等机构的推动,越来越多的工业界团队开始意识到强化学习对于机器人控制的重要性——无论是四足机器人,还是人形机器人。此后,不少大型公司开始采用强化学习训练机器人,甚至将强化学习生成的控制器直接作为可商用机器人的核心组件。

换句话说,工业界在那一阶段已经全面拥抱了学术界在强化学习方面的研究成果。那么在这种情况下,学术界应该做什么?从我的角度来说,既然工业界已经在积极吸收和使用现有的学术成果,那么学术界就应该提前思考:工业界的下一步需求是什么?

我们当然可以继续把强化学习的性能推得更高一些,但如果只是延续已有路线,其边际收益对学术界本身可能并不大,也难以真正为产业创造下一阶段的价值。

在与许多工业界同事交流后,我们观察到一个普遍的担忧:传统控制方法可解释性强,模型结构透明,因此在真实机器人上部署时更容易让工程师“放心”;但强化学习控制器本质上是大型神经网络,是典型的“黑箱”,即使在可控环境下测试表现良好,也难以保证在真实环境或规模化部署中不会出现意料之外的问题。

因此,在我看来,学术界此时更应承担的角色,是为工业界提供一套方法和工具,帮助他们理解、分析并评估这些“黑箱控制器”的安全性,包括识别其中可能存在的潜在风险和漏洞。

如果我们能系统性地发现并揭示这些风险,就能为这些强化学习控制器在真实世界中的大规模产品化部署提供重要的参考和保障。这正是我们当时开展对抗性攻击研究的重要动机所在。

问芯:汽车行业有碰撞测试,随着机器人行业的快速发展,你认为机器人在走向市场之前,也需要一套类似的、强制性的压力测试标准吗?

石凡:我认为答案是肯定的——机器人行业未来一定会需要一套系统化的安全测试与评估机制,而且其重要性会越来越高。实际上,很多研究者已经意识到,这件事的难度甚至不亚于提升机器人的智能水平本身。

从横向比较来看,最早进入产品化阶段的相关机械系统是无人驾驶汽车。尽管发展多年,无人驾驶至今仍需在大量极端场景上投入巨量的真实道路测试,以确保其安全性。因此,无人驾驶为我们提供了一个重要参照:它更接近实际落地的形态,而即便如此,其安全评估仍然是一项极其复杂且高成本的工程。

相比之下,未来可能进入千家万户的具身智能机器人所面临的环境复杂度会更高。在驾驶场景中,车辆的行为受到道路结构与交通规则的强约束,这在某种程度上缩小了系统的搜索空间,也降低了决策难度。

但家庭服务机器人则完全不同。它可以在家中自由移动,理论上能够到达任何一个角落;它的手也可能接触到任何一种物体。这样的开放环境意味着:任务空间更大、交互情况更不可预测,系统的评估复杂度自然显著提升。

换言之,机器人的安全评估本身将比提升智能能力更具挑战。虽然已经有一些具有责任感的研究团队开始在这方面投入努力,但整体而言,行业普遍认为:这是一个极其困难、充满挑战的问题,仍需要长期、跨领域的深入研究。

问芯:我们最终能否实现一个绝对安全的机器人?

石凡:我认为首先必须承认,实现绝对安全本身就是一项极具挑战性的任务。其次,目前业内对“安全”这个概念的定义其实并不完全统一。原因在于,安全往往不是一个简单的零与一、非黑即白的判断。

举例来说,一个机器人可能会犯错,例如不小心把一杯水打翻,甚至将玻璃杯摔碎。但更关键的是:它是否具备从不安全状态中恢复的能力?也就是说,它能否及时清理现场、移除潜在危险,并将环境重新恢复到安全状态。很多时候,这类能力本身也是安全体系的重要组成部分。

这些问题都需要进一步探讨,无论是研究者、产业界,还是未来可能涉及监管的相关机构,都需要共同参与,推动建立更清晰、更可操作的安全标准。

但无论标准如何演进,有一点应当是最基本的原则:机器人在任何情况下都不能对人类造成伤害。

问芯:所以还是存在一个可接受的风险范围。

石凡:是的,从本质上讲,安全是一个相对概念,而非绝对概念,因此本身就极为复杂。如何定义“安全”,在不同场景下会有完全不同的答案。

以工业机器人为例,由于其任务高度结构化且空间相对封闭,安全标准往往更容易界定。例如给机器人设立安全栅栏、规定人员不得进入作业区等,这些都是可量化、可执行的规则。

但对于能够在家庭或公共空间自由移动的服务型机器人来说,情况截然不同。这类机器人需要在开放环境中行动,并且常常需要与人进行直接交互。在这样的场景里,安全的边界更为模糊,评估难度也显著增加。

目前行业内已经存在一些如 ISO 等组织制定的相关标准,但我也了解到有越来越多的新标准正在制定过程中。我相信未来这些标准会变得更加完善,在保障安全的前提下,帮助机器人以更智能、更可靠的方式为人类服务。

人形的价值在上半身,腿要看场景

问芯:最近很多科技公司都在谈通用机器人,从研究者的视角,你认为真正的通用是否可行?技术和商业上分别需要跨过哪些门槛?

石凡:我认为通用机器人本身是一个非常重要的方向。从整个行业的发展来看,机器人的核心价值就是在于能否真正为人类发挥作用、提供帮助。传统的专用机器人在许多任务上已经发挥得相当成熟。例如在工厂中,很多机器人只负责执行某个固定的工序或任务,如搬运、焊接、拧紧等。在这些场景里,专用机器人已经把可发挥的价值挖掘得比较充分,这也意味着无论是研究还是产业应用,新的创新机会已经越来越少。

因此,下一步更需要解决的是通用性的问题。尤其是通用机器人作为一种成本较高的设备,只有具备足够广泛的用途,才能真正被家庭或商业场景接受。从这个意义上说,无论是完全通用还是有限通用,都是一个非常重要的方向。

但与此同时,实现怎样的通用,其实是非常棘手的问题。从商业角度看,这将极大考验参与者对场景、需求和用户价值的理解与判断。从技术角度来看,目前的能力距离“像人一样通用”仍有相当大的差距,短期内也很难看到实现这一目标的可能性。

因此,现实意义上的通用更可能是一种“在限定任务空间内的多能手”——即将多个专用能力有效整合,在一定范围内实现看似通用的效果。

此外,由于机器人本体结构的限制,要实现真正“人类水平”的通用仍然非常困难。例如,人类的肌肉对应于机器人的自由度和电机数量,目前的机器人在这方面远少于人类;在人类丰富的感官系统对应的传感器数量和类型上,机器人同样存在巨大差距。

问芯:现在很多场景下都在探索人形机器人,你觉得这在未来是一个比较合理的形态吗?

石凡:这确实是当前行业内颇具争议的话题。整体而言,我对人形机器人持相对乐观的态度,尤其是对“人形的上半身”——也就是双臂结构——更加认可。

原因在于,大量研究者已经发现,许多现实任务在只有单臂的情况下是存在明显局限性的。设想让一个人只用一只手完成日常生活中的许多动作,会变得非常困难。因此,具备双臂的人形上半身结构,正越来越多地被认为是许多任务场景中的“必要条件”。从这个意义上说,我认为人形机器人的上半身结构是非常重要的。

至于人形的下半身,也就是双腿结构,我觉得更需要视具体应用场景而定。例如在人类社会中,有些老年人,或使用轮椅的人,虽然没有双腿的支持,但依然能够在生活中完成大量任务。当然,他们也会在某些场景中遇到限制。因此,机器人是否需要双腿,很大程度上取决于任务环境和目标场景的需求。

同时,我也并不排斥专用机器人。核心标准始终是:只要机器人能在某个场景中发挥作用、改善人的生活,就是好的机器人。例如扫地机器人,它只是一个小圆盘,却能把家里的卫生打理得非常好,这也是一种成功的人机共生形态。

问芯:你比较看好机器人在哪些场景的应用?

石凡:换个角度来说,如果以 2025 年为例,观察这一年里出现的一些亮眼机器人公司或应用,其中给我留下最深印象的,是一家名为 Dyna Robotics 的团队。他们最初的公开 Demo 是“机器人叠衣服”。这个系统几乎可以对任意一件衣服进行处理——无论是 T 恤、毛衣,还是结构更复杂的服饰,至少有一半以上的衣物都能被叠得相当不错。

在今年韩国举行的 CoRL 大会上,他们进行了现场演示。观众可以随手从包里拿出一件衣服、甚至直接从家里带来随身衣物,随机丢给机器人。对于机器人来说,这是难度极高的挑战——完全陌生的物品、来源于世界各地、材质和形状各不相同,但系统仍能在大多数情况下完成质量可接受的叠衣任务。这个场景给现场很多研究者带来了强烈震撼。

这也正是我认为值得关注的方向:叠衣服只是一个切入点,它代表的是机器人在家居场景中对于复杂物体操作能力的提升。如果这种能力能够逐步延伸到更多任务,例如酒店后勤、商业清洁,甚至某些工厂的柔性操作环节,那么机器人就能帮助人类处理大量重复、耗时或不受欢迎的工作,从而真正释放劳动力价值。

问芯:无论落地在哪些场景,从科研到真正的产品始终有一道巨大的鸿沟。你觉得最大的鸿沟在哪里?

石凡:总体来看,机器人真正实现落地,软硬件缺一不可。即便拥有非常优秀的 AI 或软件能力,如果没有相应的硬件承载,许多方案都无法在现实中发挥作用;反之,只有硬件而缺乏匹配的软件与智能层,也同样难以形成有意义的产品。在机器人领域尤其如此,因为任何实际应用都必须依赖实体硬件作为基础。

从模式上看,我认为存在两种可行路径。

第一种是类似“苹果模式”的做法:同时把硬件和软件做到极致,并进行深度整合,从而形成一个体验闭环、体系完备的产品。

第二种则更像“安卓模式”:先把硬件做好,然后搭建完整的生态系统,向外部开放接口,包括底层控制接口,让更多开发者共同参与,利用更广泛的智慧把这个生态推向成熟。通过开放平台的方式扩大应用空间,从而与行业共同把整件事情做大。

目前在行业中这两种模式都能看到。例如在人形机器人领域,有些企业选择大规模销售硬件平台,如宇树;也有一些公司选择完全打包软硬件,以整体系统的形式输出,例如美国的 1X 等企业。

参考资料:

1.https://nus-hcrl.github.io/