在『量子杂志』读了篇文章,感觉颠覆了我的一个认知:目前主流的具身智能基础模型竟然无一引入触觉传感。
那机器人怎么完成抓取、操控工具等需要触觉辅助的工作呢?
答案是推理。
比如 2009 年诞生的 GelSight 传感器,在透明的弹性凝胶表面涂了一层反光膜。当物体压上时,反光膜会随之变形,贴合物体的轮廓。
此时,彩色 LED 从不同角度照亮表面,摄像头捕捉由此产生的阴影图案,光度立体算法再以亚毫米级的分辨率,重建出接触面的三维拓扑图。
就这样,传感器“看到了”触觉,成为了整个具身智能行业重要的转折点。
而最新的机器人则会引入本体感觉(即机器人对自己关节位置和受力状态的感知),让机器人将看到的画面与肢体实际所处的位置连成闭环,实现更为精确的推理,让机器人计算出在用“手”的任务中需要使多大的劲。
但问题是,在机器人用“手”接触任何物理界面的一瞬间,也会收到一个反作用力,但这个反作用力是没有办法被精准传输回机器人的。
举个例子,你去剥橘子,因为橘子皮的贴合程度不同,你感受到的摩擦力自然不同,所以需要不断调整自己剥橘子的指尖力量。
如果失去了这个反作用力的反馈,那机器人就很难进行精细化的操作 —— 毕竟这个世界大部分的任务都是非标准化的。
据说现在确实有一些具身智能公司优化了机器人指尖的传感器(这可能是各家公司的机密,作者无法得知),但更多时候,他们现在在处理手部任务上的进步,还是依赖于视觉能力的突飞猛进。
比如在这方面做得比较好的机器人公司 Physical Intelligence,他们就认为“如果人类不断发现视觉已经够用,能持续攻克越来越难的任务,那么实现实用的机器人操作,就会变成一个单纯的数据收集问题,而不再是技术发明问题。”
归根结底,人类的手实在过于强大。人类手掌大约有 1.5 万个感受器,它们对不同的压力、频率和形变极其敏感,指尖能分辨出相距仅几毫米的两个触点。
而且,手在大脑的感觉映射图中占据了极其不成比例的巨大区域。
当然触觉问题也不是完全不能被攻克,但具身智能行业认为这大约需要 5 到 10 年的科研时间。
至少在这个期间内,那些依赖于手部灵活性的工作可能暂时还不太会被取代。