分享
Scan me 分享到微信

2篇论文登AI顶会CVPR,物理AI又要进化了!

AI必须真正理解物理世界。

还记得今年央视春晚上宇树机器人的《武bot》吗?

3月6日,群核联合浙江大学、宇树科技,又在机器人进化历程上迈出一小步:

我们共同完成的两篇论文,双双入选了2026CVPR!

CVPR堪称是“计算机视觉界的奥斯卡”,每年汇聚全球最前沿的AI 研究成果。

这两篇论文来自同一个研究项目——

群核科技牵头,联合浙江大学、宇树科技以及浙江人形机器人创新中心共同申报的浙江省重大科技计划(“尖兵”项目):多模态多场景虚拟仿真与数据生成技术。

简单来说,这个项目想解决一个问题:如何让机器人真正适应真实世界。

在这个过程中,我们在两个关键方向上做了一些探索:

一个是机器人如何持续学习,

另一个是AI如何真正理解空间。

而这两篇CVPR论文,正好分别对应这两个问题。

机器人如何“越用越聪明”?

第一篇入选CVPR的论文是:《Arcadia: Toward a Full-Lifecycle Framework for Embodied Lifelong Learning》。

研究提出的Arcadia框架尝试构建一条完整的具身智能训练闭环:真实采集 → 仿真重建 → 统一学习 → 部署反馈。

它让机器人在真实环境中采集的数据,可以被重新用于构建新的仿真训练环境,从而持续优化模型。在这个系统中,群核科技负责的是一个关键环节:生成式场景重建与增强。

依托SpatialLM的空间理解能力,机器人采集的多模态传感器数据可以被解析为结构化数据。

随后,通过SpatialVerse平台,这些真实环境可以被 1:1 高保真复现,并支持自由编辑与动态扩展。

这意味着:机器人可以在接近真实世界、物理一致的环境中进行大量训练。

在宇树 G1 人形机器人的真实世界零样本测试中,Arcadia框架 :

🔵导航任务成功率达到 46%

🔵操作任务成功率达到 27%

相比NaVILA、OpenVLA 等主流方案,整体表现提升约3倍。

尤其是在多目的导航、多物体操作这类复杂任务中,优势更加明显。

让AI真正理解“空间逻辑”

另一篇论文关注的,是一个更基础的问题:AI 是否真的理解空间?

今天的视觉语言模型其实已经很强了。它们擅长“看懂是什么”(物体识别、描述)以及“答对为什么”(抽象问答/常识推理)。但一旦涉及到真实物理空间中的逻辑关系,很多模型就会出问题。

《SpatiaLQA: A Benchmark for Evaluating Spatial Logical Reasoning in Vision-Language Models》构建了一套新的评测基准SpatiaLQA,用于测试视觉语言模型(VLM)在真实场景中的空间逻辑推理能力。

比如,让机器人整理一个堆满书籍和摆件的书架。听起来很容易,但实际操作中,机器人需要理解很多空间关系:哪本书是支撑点、哪个摆件是独立放置的等等。

如果这些关系理解错了,机器人很可能在抽出一本书时,让整排书架的物品一起掉下来。

SpatiaLQA不仅提供测试数据,还系统化定义了空间逻辑推理能力的评价指标。

有了它,研究者可以用这套基准,“考一考”模型的空间理解水平有几级。🤖 

AI真正走进物理世界,还需要做很多工作

过去几年,大模型主要改变的是数字世界。文本、图片和视频,都已经被AI深度重塑。

但AI的下一步,很可能发生在真实的三维空间里。机器人等智能体都需要理解环境、做出决策并执行动作。

而这一切的前提是:AI必须真正理解物理世界。这两篇入选CVPR的论文,只是这个探索过程中的一个阶段成果。

未来,我们也期待与更多产学研伙伴一起,让AI更快、更稳地走进真实世界。

喜欢您正在阅读的内容吗?欢迎免费订阅泰伯每周精选电邮。 立即订阅

参与评论

【登录后才能评论哦!点击

  • {{item.username}}

    {{item.content}}

    {{item.created_at}}
    {{item.support}}
    回复{{item.replynum}}
    {{child.username}} 回复 {{child.to_username}}:{{child.content}}

更多精选文章推荐