
封面、内文图源:AI生成
撰文丨泰伯网综合
泰伯网讯,近日,谷歌DeepMind 正式发布D4RT(Dynamic4D Reconstruction and Tracking)—— 一款融合三维空间与时间维度的统一 AI 模型。它的横空出世,直接宣告 AI 视觉迈入 “四维全感知” 时代 ,让机器第一次真正 “看懂” 了这个流动的、动态的世界。

一、告别 “拼图式” 视觉,D4RT 重构 AI 看世界的方式
过去,让 AI 从一段 2D 视频里还原立体动态的现实世界,就像在玩一场复杂的拼图游戏。
工程师需要堆砌一堆模型:有的负责计算物体深度,有的负责追踪动作轨迹,有的负责校准相机视角。这种 “打补丁” 式的技术路线,不仅让 AI 系统臃肿迟缓,更让它对世界的认知支离破碎 —— 就像一个人用无数块碎片拼凑风景,却永远看不到全貌。
而 D4RT 的出现,直接颠覆了这套传统玩法。
它采用了一种极简的 “查询式” 架构 ,把所有复杂任务浓缩成一个核心问题:“视频里的某个像素,在某个特定时间点,从某个特定镜头看过去,到底位于三维空间的哪个坐标?”

简单来说,D4RT 不再逐帧 “看” 视频,而是先将整段视频压缩成一个 “全局场景表征”,再通过时空查询的方式,精准定位每个像素在四维时空中的位置。这种 “指哪打哪” 的操作,让 AI 对世界的认知从 “碎片拼图” 升级成了 “完整建模”。

X-AI前沿社
{{item.content}}