11月26日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。据了解,SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。SpatialBench不仅测试模型已知的知识,还测试模型在二维和三维空间中“感知”和操控抽象概念的能力,这对具身智能的落地尤为关键。
11月23日消息,Meta近日推出了WorldGen,这是一种端到端系统,可仅凭单条文本提示词,自动生成可交互、可导航的三维世界,不仅具备高度沉浸感,更支持用户真正步入其中、自由探索。根据Meta旗下Reality Labs的一份最新技术报告,WorldGen能够在大约五分钟内,根据单个文本提示生成可穿越和交互式的3D世界。虽然该技术目前仍处于研究阶段,但WorldGen架构解决了阻碍生成式人工智能在专业工作流程中发挥作用的特定痛点:功能交互性、引擎兼容性和编辑控制。
11月20日,据百度消息,2025百度世界大会近日在北京举办。百度集团执行副总裁、百度智能云事业群总裁沈抖发布“百度一见多人协作SOP分析Agent”。
随着搜索引擎巨头谷歌加紧步伐以跟上ChatGPT开发商OpenAI的节奏,该公司正式推出了最新人工智能模型Gemini 3。谷歌母公司Alphabet首席执行官孙达尔・皮查伊(Sundar Pichai)在谷歌周二发布的多篇博客文章中表示,这款新的人工智能模型能让用户在解答更复杂问题时获得更优答案,“无需过多提示词,就能得到你需要的结果”。
AI可穿戴科技公司「Gyges Labs」近日宣布完成新一轮融资。本轮融资由Granite Asia、璀璨资本共同参与。融资资金将用于新产品的研发、供应链等投入。2025年1月,「Gyges Labs」与Halliday联合发布的首款产品Halliday Glasses(隐秘显示能力的AI眼镜)发布,上线后便成为史上最大AI眼镜众筹项目,也是全球首款隐形显示AI眼镜。
10月22日,除了发布其首款XR头显外,三星还宣布了其即将推出AI眼镜的计划。这家韩国科技巨头已确认,未来将推出由人工智能驱动的智能眼镜,并正在与谷歌以及知名时尚眼镜品牌合作开发此类可穿戴设备。目前,三星尚未公布其AI眼镜的具体名称,但透露该产品将基于Android XR系统实现无缝连接体验。此前有报道称,三星计划于2026年推出首款无显示功能的AI眼镜,并在2027年发布配备增强现实(AR)显示屏的版本。
10月14日,微软发布自研AI文生图模型MAI-Image-1。微软表示,MAI-Image-1 “擅长”闪电、风景等逼真的图像,它可以比“更大、更慢的模型”更快地处理请求并生成图像。该模型已经跻身人工智能基准网站LMArena同类模型的前10名。
当地时间周三,谷歌律师约翰·施密特林在美国联邦法院听证会上向法官阿米特·梅塔向法院表示,希望继续捆绑热门地图和视频应用与Gemini AI服务,以回应美国司法部此前提出的禁止提议。施密特林强调,“目前没有任何迹象表明谷歌在人工智能市场已获得垄断地位或市场力量”,同时指出法院并未认定谷歌地图或YouTube构成垄断产品。
9月25日,月之暗面Kimi发布全新Agent模式OK Computer并开启灰度测试,OK Computer延续“模型即Agent”理念,通过端到端训练Kimi K2模型,进一步提升智能体及工具调用能力。用户下达需求后,Kimi可操作自身的虚拟电脑,完成多功能网站开发、海量数据分析、图片视频生成及高品质PPT制作等复杂任务。曾打赏过Kimi的用户将获得首批体验资格。
9月17日,日本地图数据供应商GeoTechnologies宣布与谷歌达成资本与业务合作,双方将共同优化谷歌地图在日本的服务,开发基于人工智能的地图数据库,并将技术应用于自动驾驶汽车安全领域。
9月17日,阿里巴巴宣布开源其首个深度研究Agent模型——通义DeepResearch。该模型在HLE、BrowseComp-zh、GAIA等多个权威评测中取得SOTA成绩,表现超越OpenAI Deep Research及DeepSeek-V3.1等同类模型。通义DeepResearch具备强大的复杂任务推理与执行能力,其模型、框架与技术方案已全面开放,用户可通过Github、Hugging Face和魔搭社区免费下载使用,助力全球开发者推动智能体技术发展。
9月8日,四维图新公告,公司正在筹划以现金及资产形式参与PhiGent Robotics Limited新一轮融资。PhiGent Robotics Limited为北京鉴智科技有限公司母公司。此次交易旨在进一步优化战略布局、增强综合实力、构建合理产业布局、提升核心竞争力。交易完成后,双方智驾业务将进行融合,共同向车企提供基于地平线平台、高通平台覆盖低中高阶的智驾业务。目前,交易处于尽职调查、审计、评估阶段,以及与主要股东协商确定交易方案。具体合作事宜明确后,公司将履行相应的决策和审批流程,并及时披露相关信息。
9月4日,据媒体报道,苹果公司已于本周和谷歌达成新的协议,开始评估谷歌开发的Gemini AI模型,而且已不再考虑收购Perplexity。消息称苹果公司目前正在测试多种AI方案,除了自家研发的模型之外,还积极探索整合OpenAI、Anthropic、谷歌的技术。媒体透露苹果目前尚未最终确定使用哪家技术,但谷歌Gemini已成为重点考察对象,这一进展标志着双方在AI领域的合作进入实质性测试阶段。消息源还透露由于稳固和谷歌的合作关系,苹果已不再考虑收购专注于AI搜索的Perplexity公司。
9月2日,腾讯优图实验室正式开源智能体框架Youtu-Agent,旨在为研究人员和开发者提供高效、易用、可复现的智能体开发工具。据介绍,Youtu-Agent面向实际场景的开源应用框架,能够覆盖文件管理、数据分析、学术研究与广域信息综述等多个方向应用。目前,Youtu-Agent开源框架已为腾讯云多个产品业务提供支持。
9月2日消息,阿里通义实验室推出新一代智能体开发框架——AgentScope 1.0。据介绍,AgentScope 1.0是一款以开发者为核心,专注于多智能体开发的开源框架。它的核心目标是解决智能体在构建、运行和管理中的难题,提供一套覆盖“开发、部署、监控”全生命周期的生产级解决方案,让智能体应用的开发更简单、运行更安全、监控更透明。
8月29日,OpenAI发布语音模型GPT-realtime。GPT-realtime是一个专用于语音AIAgent的多模态模型,能够生成更加自然流畅的语音,完美模仿人类丰富多样的语调、情感以及语速,支持图像理解并将其与语音或文本对话相结合使用,非常适用于客服、教育、金融、医疗等领域打造语音智能体。GPT-realtime还新增了Marin与Cedar两种极具特色的语音,同时对原有的8种语音也进行了全面升级。
当地时间8月26日,谷歌正式推出了其最先进的图像生成与编辑模型Gemini 2.5 Flash Image,代号“纳米香蕉”(nano banana)。该模型当前在LMArena基准测试中位列AI图像编辑模型榜首,具备角色一致性保持、自然语言精准修图、多图融合能力,并利用Gemini世界知识提升智能表现。目前用户可通过Gemini App、API等方式访问,其API定价为每百万输出token30美元。
8月26日,据《读佳》报道,字节的豆包内部正在研发测试名为“3D Model Generator”的3D模型生成工具。该工具致力于可控大规模生成模型,为创建高质量3D资产提供有力支持,尤其在游戏中的3D建模领域。该工具或不久后对外开放使用。从测试页面可以看出,“3D Model Generator”支持两种生成方式,一种是基于图像生成,选取本地图像文件,点击“生成”,即可快速生成3D模型,降低了3D建模的入门门槛。另外一种是基于图像+模型生成,通过图像文件与模型文件的结合,实现更复杂或更具针对性的3D资产创作。
8月22日消息,Meta据悉聘请苹果公司AI高管Frank Chu加入Superintelligence团队。
8月19日,通义千问宣布,推出Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练,将Qwen-Image的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。