众力资讯网

CoStream:组合简单行为实现长程、高精度操作 哈佛提出了一种通过组合简单、

CoStream:组合简单行为实现长程、高精度操作
哈佛提出了一种通过组合简单、独立行为来实现长程、高精度接触式操作的框架CoStream,将任务分解为语义行为、预测行为和反应行为,并通过共享的SE(3) 接口进行右乘融合。实验表明,CoStream 在 GPU 插入、钻头安装等 8 项真实任务中表现卓越,在 0.5mm 间隙的精密组装中达到 100% 成功率,而基线模型 VoxPoser 和 π0.5 成功率均为0。

行为组合式架构设计:
改变了传统机器人学中“硬性流水线”或“端到端单体模型”的范式,主张复杂操作应由多个简单的独立行为组合而成。这种解耦设计使得每个模块可以独立开发、以不同频率运行,并能轻松适应新传感器或基础模型。

共享 SE(3) 接口与动作合成器:
建立了一套统一的数学接口,语义行为输出任务坐标系锚点,预测行为输出该坐标系下的名义运动,反应行为输出触觉残差。动作合成器在每个控制步通过右乘操作将三者融合为单一的末端执行器位姿指令,确保了控制连续性和漂移抑制。

三流行为协同机制:
1. 语义行为:利用大语言模型和视觉语言模型将自然语言指令解析为几何约束,确定物体中心的目标锚点。
2. 预测行为:调用视频世界模型生成任务执行的“想象视频”,并通过 3D 关键点追踪器将其转化为物体中心的名义运动先验。
3. 反应行为:利用 GelSight 触觉传感器进行 25Hz 的实时闭环,通过 NormalFlow 算法估计物体在夹爪内的滑动并生成补偿残差,同时结合力控算法防止装配卡顿。

分层编译与控制器映射:
系统包含阶段编译器和控制器编译器,前者将长程任务分解为带有特定属性的阶段(如预抓取、插入、锁定);后者根据阶段属性从预设库中自动匹配阻抗/导纳参数、力限制和恢复规则,避免了让大模型直接输出不稳定的数值增益,增强了系统的鲁棒性和安全性。

卓越泛化与抗干扰能力:
CoStream 无需针对特定任务重新训练,即可在 CPU、RAM、GPU 等不同物理特性的组装任务间无缝切换。由于引入了实时触觉反馈,系统能够在中途遭受人为干扰时自动恢复并重新对准,展现出极强的动态适应性。
LLM VLA VLM CoStream