提升机器人3D操作能力，北京大学与智元机器人联合实验室发布OmniManip-泰伯网

提升机器人3D操作能力，北京大学与智元机器人联合实验室发布OmniManip

IT之家 2025-01-23 15:21

目前项⽬主⻚与论⽂已上线，代码与测试平台即将开源。

1月23日消息，如何将视觉语⾔基础模型（Vision Language Models, VLMs）应⽤于机器⼈以实现通⽤操作是具身智能领域的⼀个核⼼问题，这⼀⽬标的实现受两⼤关键挑战制约：

VLM缺少精确的3D理解能⼒：通过对⽐学习范式训练、仅以2D图像/⽂本作为输⼊的VLM的天然局限；

⽆法输出低层次动作：将VLM在机器⼈数据上进⾏微调以得到视觉 - 语⾔ - 动作（VLA）模型是⼀种有前景的解决⽅案，但⽬前仍受到数据收集成本和泛化能⼒的限制。

上海智元新创技术有限公司官方今日发文称，北⼤携⼿智元机器⼈团队提出OmniManip架构，基于以对象为中⼼的3D交互基元，将VLM的高层次推理能力转化为机器⼈的低层次高精度动作。

针对⼤模型幻觉问题和真实环境操作的不确定性，OmniManip引⼊了VLM规划和机器⼈执⾏的双闭环系统设计，实现了操作性能突破。目前项⽬主⻚与论⽂已上线，代码与测试平台即将开源。

从智元机器人官方获悉，OmniManip的关键设计包括：

基于VLM的任务解析：利⽤VLM强⼤的常识推理能⼒，将任务分解为多个结构化阶段（Stages），每个阶段明确指定了主动物体（Active）、被动物体（Passive）和动作类型（Action）。

以物体为中⼼的交互基元作为空间约束：通过3D基座模型⽣成任务相关物体的3D模型和规范化空间（canonical space），使VLM能够直接在该空间中采样3D交互基元，作为Action的空间约束，从⽽优化求解出Active物体在Passive物体规范坐标系下的⽬标交互姿态。

闭环VLM规划：将⽬标交互姿态下的Active/Passive物体渲染成图像，由VLM评估与重采样，实现VLM对⾃身规划结果的闭环调整。

闭环机器⼈执⾏：通过物体6D姿态跟踪器实时更新Active/Passive物体的位姿，转换为机械臂末端执⾏器的操作轨迹，实现闭环执⾏。

此外，OmniManip具备通⽤泛化能⼒，不受特定场景和物体限制。团队已将其应⽤于数字资产⾃动标注/合成管道，实现⼤规模的机器⼈轨迹⾃动采集。该研究团队将开源泛化操作⼤规模数据集和对应的仿真评测基准。

据此前报道，以“天才少年”身份加入华为的稚晖君于2022年底宣布离职，创业智元机器人。2024年9月3日，智元机器人完成A++++++轮融资，估值已超过70亿元，得到了包括北汽、上汽、比亚迪在内的国内汽车巨头支持。

目前，智元机器人量产的第1000台通用具身机器人已于本月（1月6日）正式下线，其中包括731台双足人形机器人（远征A2/灵犀X1）和269台轮式通用机器人（远征A2-D/A2-W）。

喜欢您正在阅读的内容吗？欢迎免费订阅泰伯每周精选电邮。立即订阅

声明：泰伯网登载此文出于传递更多信息之目的，并不意味着赞同其观点或证实其描述，文章内容仅供参考。

提升机器人3D操作能力，北京大学与智元机器人联合实验室发布OmniManip