
封面、内文图源:AI生成
撰文丨泰伯网 乔帅
泰伯网讯,近日,北京智源人工智能研究院(下称“智源研究院”)推出的多模态大模型“悟界·Emu”登上Nature正刊,成为继DeepSeek之后第二个达成此成就的中国大模型团队研究成果,也是中国首篇多模态大模型路线的Nature论文。
据智源研究院微信公众号,1月28日,智源多模态大模型成果"Multimodal learning with next-token prediction for large multimodal models(通过预测下一个词元进行多模态学习的多模态大模型)"上线国际顶级学术期刊Nature,预计2月12日纸质版正式刊发。

图源:Nature官网
Nature编辑点评这项研究:Emu3仅基于预测下一个词元(Next-token prediction),实现了大规模文本、图像和视频的统一学习,其在生成与感知任务上的性能可与使用专门路线相当,这一成果对构建可扩展、统一的多模态智能系统具有重要意义,有望推动原生多模态助手、世界模型以及具身智能等方向的发展。

图源:智源研究院
资料显示,Emu3模型于2024年2月立项,当时团队重审大模型发展路径。随着GPT-4、Sora爆火,“预测下一个token”自回归路线改变语言模型领域,引发AGI早期迹象讨论。

X-AI前沿社
{{item.content}}