10月15日,光谱视觉技术和解决方案提供商杭州高谱成像技术有限公司完成新一轮战略融资。本轮融资由浙江省国资平台富浙科技与杭州市西湖区区属投资平台西湖科创投联合投资,资金将主要用于核心技术研发深化、规模化生产能力提升及浙江本地产业生态布局,加速人工智能与光谱视觉技术的深度融合。
10月11日,国内首个基于纯国产算力预训练的移动端视觉基座大模型“橘洲”在长沙发布V1.5端侧版。据介绍,在参数量降低到1/50、训练速度提升5倍、生成速度提升7倍的基础上,“橘洲”经行业数据训练后即可成为垂类大模型,真正赋能千行百业。
导远科技近期成功获得国内知名三维视觉技术客户的批量订单。惯性测量单元(IMU)是实现时空感知技术的基石,安装了更高精度IMU模组的扫描仪,能够在连续获取自身姿态变化的同时,准确计算出对象物体的相对位置,从而提升图像拼接效率,在立体空间精准、完整且高效地还原被扫描物体。这标志导远科技正凭借在汽车领域积累的技术、产品及量产交付方面的经验,用车规级IMU在内的多种位姿传感器赋能多种智能体。
8月25日消息,字节跳动豆包大模型视觉基础研究团队负责人冯佳时近期离职。冯佳时2019年加入字节,专注于计算机视觉、机器学习领域的相关研究,曾发表了400多篇关于深度学习、物体识别、生成模型、机器学习理论方面的论文。
8月11日,智谱开源了其最新一代视觉理解模型GLM-4.5V。这一模型基于智谱新一代文本基座模型GLM-4.5-Air训练而来,延续上一代视觉推理模型GLM-4.1V-Thinking的技术路线,拥有1060亿参数,120亿激活参数。GLM-4.5V还新增了思考模式的开关功能,用户可自主控制模型是否进行思考。这一模型的视觉能力解锁了一些有趣的玩法。例如,模型现在可以看懂麦当劳和肯德基炸鸡翅的区别了,还从炸鸡的色泽、外皮质感等角度,进行了全面分析。
7月27日消息,原通义实验室应用视觉团队负责人薄列峰已加入腾讯混元大模型团队,直接向腾讯副总裁兼混元项目负责人蒋杰汇报。据悉,薄列峰在今年4月30日从阿里离任,彼时曾有传闻称他已加盟某大型互联网企业,在美国任职,并负责多模态模型方向的全面工作,直接向公司高管汇报。薄列峰于2022年加入阿里,起初接棒谭平领导达摩院XR实验室,后调至通义实验室主导应用视觉方向,成为推动阿里图像与视频AIGC技术的重要人物。
7月17日,字节跳动豆包大模型视觉多模态生成方向负责人杨建朝在公司内部宣布“暂时休息”,相关工作已完成交接。其工作由周畅(花名“时光”)接手,周畅所在架构仍为“多模态交互与世界模型”部门,向吴永辉汇报。此次人事变动原因未明确,有知情人士称是“家庭因素”,也有说法称其因长期高强度工作身心俱疲。杨建朝是字节AI体系内公认的“技术大牛”,曾师从“计算机视觉之父”Thomas Huang,2018年加入字节跳动,2023年起带领Seed视觉部门。接任者周畅本科毕业于复旦大学,博士就读于北京大学,曾担任阿里巴巴通义千问大模型的技术负责人,主导开发了M6多模态预训练模型,2024年7月从阿里离职后加入字节跳动。
7月16日消息,近日,杭州高谱成像技术有限公司(简称“高谱成像”)宣布完成数千万元人民币首轮融资。本轮融资由海通创新私募基金管理有限公司与广东弓叶科技有限公司分别代表市场化投资机构和产业投资方共同参与,高谱成像将以此为契机,加快产品研发迭代,强化国内外渠道建设,进一步巩固高谱成像公司在光谱视觉行业的领先地位。同时,加速标准化相机和整机产品的规模化生产,进一步降低成本,助力更多行业客户的多维智能感知需求。近两年来,通过聚焦工业检测和低空遥感应用场景,高谱成像与行业龙头企业建立起了深度合作关系,并在水质遥感监测、固废回收分选、烟草检测等场景形成了行业领先的批量交付。
6月28日消息,在本周举行的阿斯彭思想节(Aspen Ideas Festival)上,福特CEO吉姆・法利( Jim Farley)表达了对特斯拉自动驾驶方案的疑虑。法利在与作家沃尔特・艾萨克森的交谈中谈到了对特斯拉和Waymo自动驾驶的看法。艾萨克森问法利更倾向于哪种模式,他表示Waymo基于激光雷达(LiDAR)的方案“更合理”,然后他列举了安全、消费者信任以及基于摄像头模型的局限性等因素来进行说明。但他也指出,特斯拉和Waymo都在自动驾驶方面“取得了很大进展”。法利还确认,他已就此事与马斯克进行过交谈。尽管如此他仍然认为LiDAR是自动驾驶的关键。
5月20日,腾讯正式发布混元游戏视觉生成平台,这是依托混元大模型打造的首个工业级AIGC游戏内容生产引擎,大幅优化游戏资产生成与游戏制作流程。其面向游戏工业级内容生产,为游戏美术设计师提供一系列AI工具,帮助游戏设计厂商快速生成符合创作意图的高质量游戏素材/概念草案,让游戏美术设计效率提升数十倍。目前,该“混元游戏”通过腾讯混元官网提供体验入口,面向游戏行业设计师开放申请。
“互联网八卦小喇叭”等多个微信公众号爆料,阿里巴巴通义实验室应用视觉团队负责人薄列峰(职级P10),已于4月30日低调离职。他曾带领团队做出通义App上全民舞王「兵马俑跳科目三」等爆款功能。知情人士透露,他已经加入某互联网大厂,base美国,担任多模态模型部副总经理,负责部门整体工作,直接向公司副总裁汇报。消息称,该大厂刚刚进行了架构调整。据了解,薄列峰2022年加入阿里,此前担任京东数字科技集团AI实验室首席科学家一职。
近日,人工智能感知与边缘计算芯片企业爱芯元智对外宣布,已于近期顺利完成C轮融资,融资金额超过十亿元人民币。本轮融资的投资方包括宁波通商基金、镇海产投、重庆产业投资母基金、重庆两江基金、元禾璞华、韦豪创芯等知名投资机构。本轮资金将主要用于推动下一代先进人工智能芯片的技术研发,加速智能产品量产进程,并加大市场推广力度,旨在为客户提供更高效、智能的解决方案。
4月7日,杭州蓝芯科技有限公司(以下简称“蓝芯科技”)正式宣布完成由鲲鹏基金领投的C+轮融资,融资金额数亿元。目前蓝芯科技产品涵盖3D视觉传感器、移动机器人、人形机器人、移动机器人核心零部件、智能化软件系统等,本轮融资将重点投向3D视觉传感器深化研发、人形机器人AI技术攻关、全球化供应链及服务体系升级。
3月28日,RoboSense速腾聚创正式发布机器人视觉全新品类Active Camera的首款产品AC1及AI-Ready生态,为行业提供机器人感知开发一站式解决方案。AC1提供深度、色彩、运动姿态硬件级融合信息,让机器人感知构型摆脱堆叠传感器的传统方法,进化为简洁高效、便于大规模量产的商用方案;AI-Ready生态为开发者提基础软件工具与开源算法,提升开发效率,缩短开发周期。
去年12月,阿里通义千问推出了QVQ-72B-Preview, 作为一个探索模型,它存在一些不足之处。今天,我们正式推出 QVQ-Max 视觉推理模型的第一版。这一新版本的模型具备强大的多模态处理能力,它不仅能够“看懂”图片和视频里的内容,还能结合这些信息进行分析、推理,甚至给出解决方案。从数学题到生活小问题,从编程代码到艺术创作,QVQ-Max 都表现出了不俗的能力。
据丛登资本公众号2月18日消息,智能视觉解决方案提供商武汉尚易星通科技有限公司(以下简称“尚易星通”)完成Pre-A轮融资。此次融资由一起创资本独家投资。尚易星通成立于2016年,已掌握弹道监测系统核心技术并实现产业化,在智能视觉模块行业领先实现军用和民用融合发展,主要产品包括视觉测量装备、视觉处理装备和穿戴装备等。尚易星通的客户涵盖航天科工、航天科技、长光所、兵器集团、百度、爱泊车、铁科院、中车赛德等知名企业与机构。
12月25日,阿里云通义千问发布业界首个开源多模态推理模型QVQ-72B-Preview。QVQ展现出超预期的视觉理解和推理能力,在解决数学、物理、科学等领域的复杂推理问题上表现尤为突出。多项评测数据显示,QVQ超越了此前的视觉理解模型「开源王者」Qwen2-VL,整体表现与「满血版」OpenAI o1、Claude3.5 Sonnet等推理模型相当。目前,开发者可在魔搭社区和HuggingFace平台上直接体验。
针对字节豆包视觉理解模型定价低于同行85%,12月20日,火山引擎总裁谭待发文回应称,3厘/千tokens的价格,字节仍然能有合理的毛利。他表示,对于2B业务,如果毛利是负的,规模越大亏损越多,商业模式是不成立的。能做到这个价格其实是字节模型技术能力、工程能力、软硬件结合能力的体现。比如算法上预训练阶段的特别优化,工程上的错峰和混部,大规模的P/D推理分离,硬件优化等等。技术先行,才能做好服务。