11月26日,空间推理基准测试SpatialBench更新了最新一期榜单,阿里千问的视觉理解模型Qwen3-VL、Qwen2.5-VL位列头两名,超越Gemini 3、GPT-5.1、Claude Sonnet4.5等国际顶尖模型。据了解,SpatialBench是一项近年来兴起的第三方空间推理基准测试榜单,主要聚焦多模态模型在空间、结构、路径等方面的综合推理能力,被AI社区视为是衡量“具身智能”进展的新兴测试标准之一。SpatialBench不仅测试模型已知的知识,还测试模型在二维和三维空间中“感知”和操控抽象概念的能力,这对具身智能的落地尤为关键。
随着搜索引擎巨头谷歌加紧步伐以跟上ChatGPT开发商OpenAI的节奏,该公司正式推出了最新人工智能模型Gemini 3。谷歌母公司Alphabet首席执行官孙达尔・皮查伊(Sundar Pichai)在谷歌周二发布的多篇博客文章中表示,这款新的人工智能模型能让用户在解答更复杂问题时获得更优答案,“无需过多提示词,就能得到你需要的结果”。
10月22日,除了发布其首款XR头显外,三星还宣布了其即将推出AI眼镜的计划。这家韩国科技巨头已确认,未来将推出由人工智能驱动的智能眼镜,并正在与谷歌以及知名时尚眼镜品牌合作开发此类可穿戴设备。目前,三星尚未公布其AI眼镜的具体名称,但透露该产品将基于Android XR系统实现无缝连接体验。此前有报道称,三星计划于2026年推出首款无显示功能的AI眼镜,并在2027年发布配备增强现实(AR)显示屏的版本。
当地时间周三,谷歌律师约翰·施密特林在美国联邦法院听证会上向法官阿米特·梅塔向法院表示,希望继续捆绑热门地图和视频应用与Gemini AI服务,以回应美国司法部此前提出的禁止提议。施密特林强调,“目前没有任何迹象表明谷歌在人工智能市场已获得垄断地位或市场力量”,同时指出法院并未认定谷歌地图或YouTube构成垄断产品。
9月4日,据媒体报道,苹果公司已于本周和谷歌达成新的协议,开始评估谷歌开发的Gemini AI模型,而且已不再考虑收购Perplexity。消息称苹果公司目前正在测试多种AI方案,除了自家研发的模型之外,还积极探索整合OpenAI、Anthropic、谷歌的技术。媒体透露苹果目前尚未最终确定使用哪家技术,但谷歌Gemini已成为重点考察对象,这一进展标志着双方在AI领域的合作进入实质性测试阶段。消息源还透露由于稳固和谷歌的合作关系,苹果已不再考虑收购专注于AI搜索的Perplexity公司。
当地时间8月26日,谷歌正式推出了其最先进的图像生成与编辑模型Gemini 2.5 Flash Image,代号“纳米香蕉”(nano banana)。该模型当前在LMArena基准测试中位列AI图像编辑模型榜首,具备角色一致性保持、自然语言精准修图、多图融合能力,并利用Gemini世界知识提升智能表现。目前用户可通过Gemini App、API等方式访问,其API定价为每百万输出token30美元。
当地时间5月6日,谷歌DeepMind人工智能研究团队发布了Gemini 2.5 Pro “I/O” ,这是今年3月发布的多模态大语言模型Gemini 2.5 Pro的升级版本。在AI排行榜LMArena上,该模型在多个指标上登顶。目前该模型已向Google AI Studio的独立开发者、Vertex AI云平台的企业用户以及Gemini应用的普通用户开放。
2月7日,据研究公司 SimilarWeb估计,在短短一周内,DeepSeek网站的用户数量就超过了谷歌的 Gemini 聊天AI(后者已经存在了近两年)。1月31日,DeepSeek.com在美国的日访问量为240万次,比Gemini网站(150万次)高出 60%。OpenAI 的ChatGPT仍然是其八倍,当天的日访问量为1930万次。(DeepSeek 在1月28日的访问量达到490万次的峰值。)DeepSeek和Gemini之间的差距在美国以外更大:SimilarWeb的数据显示,1月31日,这个中国聊天AI在全球(基本不包括中国)的访问量为2920万次,是Gemini的三倍多。
2月6日消息,谷歌周三向所有人发布了 Gemini 2.0——号称迄今为止功能最强大的人工智能模型套件。去年 12 月,该公司向开发人员和受信任的测试人员开放了访问权限,并将一些功能整合到谷歌产品中,但谷歌表示,这是一次全面发布。该模型套件包括 2.0 Flash,被称为主力模型,最适合大规模高容量、高频率任务,以及 2.0 Pro Experimental 用于编码性能,以及 2.0 Flash-Lite,该公司称其为迄今为止最具成本效益的模型。
当地时间12月11日,谷歌宣布推出最新AI模型Gemini 2.0,称这是其迄今为止最强大的模型。即日起,谷歌将2.0开放给开发者以及受信任的测试人员,并正在积极推进将其整合到公司的产品中,率先从Gemini和Search开始。即日起,Gemini 2.0 Flash体验版模型将对所有Gemini用户开放。同时,谷歌还推出了Deep Research的新功能,它运用高级推理和长上下文处理能力,承担研究助手的角色,帮助用户探索复杂的主题并撰写报告。该功能自即日起对Gemini Advanced用户开放。
当地时间2月21日,谷歌在社交平台X上发布声明称,该公司意识到其Gemini人工智能产品在一些历史图像生成描述中存在不准确之处,其正在努力改善这一问题。谷歌表示,“我们意识到Gemini在某些历史图像生成描述中存在不准确之处。Gemini的AI图像生成功能的确可以生成各类的人。这通常是件好事,因为世界各地的人们都在使用它。但它在这里失误了。”
12月14日消息,美国时间周三,谷歌发布了面向企业的Gemini Pro,允许开发者利用谷歌最新的人工智能模型构建应用程序。Gemini是一个通过大量数据训练的大型人工智能系统,可以根据用户的要求生成新内容。
外界期待已久的谷歌大语言模型Gemini在美国时间12月6日早间正式对外发布,谷歌首席执行官皮查伊表示,Gemini 1.0是目前为止谷歌能力最强的通用人工智能模型。谷歌当天发布的Gemini 1.0共分为Ultra, Pro和Nano三个版本,其中Ultra的能力最强,复杂度最高,能够处理最为困难的任务,Pro能力稍弱,可以用来处理多任务,Nano则更注重于端侧的处理能力。