搜索中心

世界模型和具身大脑最新突破:90%生成数据,VLA性能暴涨300%

分享至

12月2日消息,极佳视界发布并开源具身世界模型GigaWorld-0,成功将世界模型生成数据在VLA训练中的占比提升至90%。所训练的VLA模型在新纹理(训练中未见材质表面)、新视角(训练中未见的观测角度)、新物体位置(训练中未见的空间布局)三大泛化维度上均实现近300%的性能提升,标志着具身智能正式迈入“数据高效、高泛化、低成本”的新阶段。

“AI教母”李飞飞发布首款商用世界模型

分享至

11月13日,AI教母、斯坦福大学教授李飞飞的创业公司World Labs正式推出了其首款产品Marble,由多模态世界模型提供支持,官方发文称其是“构建空间智能未来的基础”,该模型能通过单张图片、一段视频或一句文本提示创建高保真、持久的3D世界。

北京人形开源WoW具身世界模型

分享至

10月17日,从北京人形机器人创新中心获悉,其开源了全新的世界模型架构,提出了一个让机器人真正“看见、理解并行动于世界”的具身世界模型--WoW(World-Omniscient World Model)。据了解,其能帮助具身智能机器人快速学习掌握各项技能。

李飞飞发布全新世界模型,单GPU就能跑

分享至

10月17日,教母李飞飞亲自宣布对外推出全新模型RTFM(A Real-Time Frame Model),不仅具备实时运行、持久性和3D一致性,更关键的是——单张H100 GPU就能跑。仅需单张H100 GPU,RTFM便能以交互级帧率实时完成推理运算。该架构具备随数据量与算力增长而持续扩展的能力。它通过端到端的通用架构从海量视频数据中自主学习,无需依赖显式3D表征即可构建三维世界模型。用户可无限时长与RTFM交互,所有场景将永久留存。该系统构建的持久化3D世界不会因视角转换而消失。

马斯克xAI挖走英伟达两员大将:正开发可用于游戏与机器人领域的世界模型

分享至

10月13日消息,埃隆·马斯克旗下的xAI公司正在加紧构建“世界模型”,与Meta和谷歌等竞争对手角逐下一代AI系统。世界模型是一种生成式AI模型,能够理解现实世界的动态特征,包括物理属性和空间特性。xAI已从英伟达挖来两位AI研究员泽尚·帕特尔和何宜晖,他们具备世界模型研发经验。世界模型有望将AI能力提升到超越大语言模型的水平,其潜在市场规模可能接近当前全球经济总量。xAI计划在明年年底前推出一款由AI生成的优秀游戏。此外,谷歌、Meta等领先的AI实验室也在研发世界模型,但该领域仍面临巨大技术挑战,如找到足够数据来模拟现实世界并训练模型既困难又成本昂贵。

蔚来将推出世界模型2.0版本,首次实现智能驾驶的开放式交互

分享至

10月9日消息,蔚来将会从今年底到明年一季度,陆续在多个平台推出世界模型2.0的迭代版本。目标是基于世界模型的时空认知能力,加入语言,构建Open-set(开放集)智能引擎实现开放交互。用户将不再局限于有限的指令集,而是能够自然表达,系统正确理解并执行。同时,新版本将会通过强化学习,进一步增强长时序的能力。

李斌谈蔚来世界模型:不要被不全面评价标准带节奏,新版本会回到行业数一数二位置

分享至

近日,蔚来创始人、董事长、CEO李斌在公司内部发表全员讲话,并回答员工问题。在提及对蔚来世界模型NWM的评价及预期时,李斌表示不要被不全面的评价标准带节奏,蔚来的智能驾驶世界模型NWM在优先保障安全的前提下,一直在行业中都处于领先的位置。同时李斌还透露,今年蔚来NWM有新的版本规划,他认为再经历两个版本,蔚来世界模型会在行业里回到数一数二的位置。

腾讯混元3D世界模型推出Lite版本

分享至

8月15日,据腾讯混元消息,混元团队推出Lite版本,大幅降低运行显存开销,支持消费级显卡部署。

智元机器人发布行业首个机器人世界模型开源平台Genie Envisioner

分享至

8月14日消息,智元机器人推出面向真实世界机器人操控的统一世界模型平台Genie Envisioner(GE)。 不同于传统“数据—训练—评估”割裂的流水线模式,GE将未来帧预测、策略学习与仿真评估首次整合进以视频生成为核心的闭环架构,使机器人在同一世界模型中完成从“看”到“想”再到“动”的端到端推理与执行。

重新定义“生成式AI”,谷歌DeepMind推出世界模型Genie 3

分享至

8月6日消息,谷歌DeepMind宣布推出第三代通用的世界模型Genie 3,可以生成前所未有的多样化交互式环境。给出文本提示,Genie 3可以生成动态世界,可以以每秒24帧的速度实时导航,并以720p的分辨率保持几分钟的一致性。与前代模型(如 Genie 1/2)和视频生成模型(如 Veo 2,Veo 3对直觉物理学的深刻理解)相比,Genie 3是第一个允许实时交互的世界模型,同时其一致性和真实感也得到了提升。

腾讯混元亮相WAIC 2025,发布3D世界模型及系列开源模型

分享至

7月27日,2025世界人工智能大会腾讯论坛上,腾讯正式发布混元3D世界模型1.0,并宣布全面开源。这是业界首个开源可沉浸漫游、可交互、可仿真的世界生成模型,为游戏开发、VR、数字内容创作等领域带来了全新的可能性。除3D模型外,腾讯混元还披露了包括端侧混合推理语言模型、多模态理解模型、游戏视觉模型等在内的一系列开源计划。目前,混元3D世界模型1.0已全面开源。从秒级生成单个3D资产,到一键打造可漫游的3D世界,腾讯混元正逐步构建完善的3D内容生成生态。

“绝影开悟”世界模型升级亮相WAIC 2025

分享至

7月28日消息,商汤绝影携全新升级的“绝影开悟”世界模型亮相WAIC 2025,并发布业内最大规模的生成式驾驶数据集“WorldSim-Drive”。目前,商汤绝影正在与上汽集团旗下的智己汽车进行深度合作,已顺利打通Cut-in、碰撞等场景的数据生成链路。未来,绝影将携手上汽智己等各方伙伴共同打造数据工厂。

商汤绝影世界模型负责人离职

分享至

6月10日消息,据悉,商汤绝影的世界模型研发负责人武伟离职。武伟负责商汤绝影云端技术体系建设,也是绝影的生成式智驾方案R-UniAD的研发负责人。武伟离职之后有可能去创业。

全球首个原生多模态世界模型发布

分享至

6月6日,北京智源人工智能研究院发布“悟界”系列大模型,包括全球首个原生多模态世界模型“悟界·Emu3”、全球首个脑科学多模态通用基础模型“悟界·见微Brainμ”。智源研究院还发布了悟界·具身智能大模型,包括悟界·RoboOS 2.0——全球首个支持MCP的跨本体大小脑协作框架,和悟界·RoboBrain 2.0——具身大脑大模型。悟界·OpenComplex2全原子微观生命模型也一并发布。

蔚来世界模型NWM首个版本正式推送

分享至

5月30日,蔚来世界模型NWM首个版本正式开启推送。首批推送车型为超过40万台的Banyan榕车型。Cedar雪松车型,包括ET9、新ES6、新EC6、新ET5、新ET5T在内,将会于6月底开启推送。

上海码极客联合同济大学发布多模态空间智能世界模型

分享至

5月20日,在人工智能赋能学科创新行动发展大会上,上海人工智能企业码极客、成都考拉悠然联合同济大学发布多模态空间智能世界模型——悠然无界大模型,同时带来了系列空间智能体产品。据介绍,悠然无界大模型作为跨空间、跨任务、跨本体世界模型,能对齐不同空间、任务、本体,具备跨模态泛化能力和通用性,以及抽象与迁移能力,构建了“大模型+智能本体+行业应用”全栈空间智能技术体系。在物理常识和具身推理任务上超越OpenAI o1、GPT-4o、Qwen2.5-VL系列等主流大模型。

蔚来辟谣世界模型未通过工信部测试传言

分享至

5月8日,蔚来品牌与传播助理副总裁马麟称网传NWM世界大模型版本没通过工信部测试,不予通过的消息为造谣。据悉,蔚来世界模型NWM是中国首个生成式智能驾驶模型,能通过生成式建模、长时序推演而做出端到端架构决策。

范式集团创始人戴文渊:以“Agent +世界模型”赋能更多产业,加速通向AGI

分享至

据IPO早知道消息,在3月18日举行的范式集团发布会上,范式集团创始人戴文渊发布全新的集团Logo,并分享了范式集团的 AGI 愿景与实现路径。戴文渊强调:“范式集团未来将用‘AI Agent+世界模型’的技术路径去赋能更多的产业,最终将大量垂直的智能能力汇聚成为 AGI。”

极佳科技推出首个借助世界模型优化4D驾驶场景重建成效的创新成果

分享至

12月16日消息,极佳科技联合中科院自动化所、理想汽车、北京大学、慕尼黑工业大学,推出DriveDreamer4D。据介绍,DriveDreamer4D是首个借助世界模型优化4D驾驶场景重建成效的创新成果。DriveDreamer4D作为驾驶场景的数据强援,可生成丰富多元视角数据,涵盖变道、加减速等动态场景。

鹏城实验室、达闼机器人、华为诺亚方舟实验室等联合研究团队推出基元驱动航点感知世界模型PIVOT-R

分享至

近日,中山大学、鹏城实验室、达闼机器人、华为诺亚方舟实验室的联合研究团队,基于人形机器人XR-1及灵巧手技术,共同推出基元驱动航点感知世界模型PIVOT-R,旨在解决当前机器人在复杂操作任务中的挑战。