10月11日,国内首个基于纯国产算力预训练的移动端视觉基座大模型“橘洲”在长沙发布V1.5端侧版。据介绍,在参数量降低到1/50、训练速度提升5倍、生成速度提升7倍的基础上,“橘洲”经行业数据训练后即可成为垂类大模型,真正赋能千行百业。
8月11日,智谱开源了其最新一代视觉理解模型GLM-4.5V。这一模型基于智谱新一代文本基座模型GLM-4.5-Air训练而来,延续上一代视觉推理模型GLM-4.1V-Thinking的技术路线,拥有1060亿参数,120亿激活参数。GLM-4.5V还新增了思考模式的开关功能,用户可自主控制模型是否进行思考。这一模型的视觉能力解锁了一些有趣的玩法。例如,模型现在可以看懂麦当劳和肯德基炸鸡翅的区别了,还从炸鸡的色泽、外皮质感等角度,进行了全面分析。
7月17日,字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在公司内部宣布“暂时休息”,相关工作已完成交接。其工作由周畅(花名“时光”)接手,周畅所在架构仍为“多模态交互与世界模型”部门,向吴永辉汇报。此次人事变动原因未明确,有知情人士称是“家庭因素”,也有说法称其因长期高强度工作身心俱疲。杨建朝是字节AI体系内公认的“技术大牛”,曾师从“计算机视觉之父”Thomas Huang,2018年加入字节跳动,2023年起带领Seed视觉部门。接任者周畅本科毕业于复旦大学,博士就读于北京大学,曾担任阿里巴巴通义千问大模型的技术负责人,主导开发了M6多模态预训练模型,2024年7月从阿里离职后加入字节跳动。
4月16日,百度开发者大会上,百度创始人、董事长兼首席执行官李彦宏表示,视觉大模型最大的应用场景是自动驾驶。基于超过1亿公里的、中国复杂城市道路测试里程数据,百度训练出来了Apollo视觉感知大模型。目前,搭载该方案的极越汽车高阶智驾覆盖里程将超50万公里。极越汽车表示,预计2024年只要有百度地图的地方,就可以使用点到点智能驾驶。