10月15日,openPangu-Ultra-MoE-718B-V1.1正式在GitCode平台开源,模型权重与技术细节全面公开。openPangu-Ultra-MoE-718B-V1.1是基于昇腾NPU训练的大规模混合专家(MoE)语言模型,总参数规模达718B,激活参数量为39B。据介绍,相比上一版本,V1.1在Agent工具调用能力上显著增强,幻觉率进一步降低。
近日,华为推出参数规模7180亿的新模型——盘古Ultra MoE,这是一个全流程在昇腾AI计算平台上训练的准万亿MoE模型。华为同时发布盘古Ultra MoE模型架构和训练方法的技术报告。在训练方法上,华为首次披露在昇腾CloudMatrix 384超节点上,打通大稀疏比MoE强化学习(RL)后训练框架的关键技术,使RL后训练进入超节点集群时代。 此外,近期发布的盘古Pro MoE大模型,在参数量为720亿,激活160亿参数量的情况下,大模型榜单SuperCLUE的2025年5月排行榜上,位居千亿参数量以内大模型排行并列国内第一。
3月10日,字节豆包大模型团队官宣开源一项针对MoE架构的关键优化技术,可将大模型训练效率提升1.7倍,成本节省40%。据了解,该技术已实际应用于字节的万卡集群训练,累计帮助节省了数百万GPU小时训练算力。
11月27日,由傅盛创建的猎户星空正式发布Orion-MoE 8×7B大模型。据介绍,这款大模型是猎户星空自主研发的开源混合架构专家大模型,拥有8×70亿参数,采用了生成式混合专家的设计,涵盖了中文、英语、日语、韩语等多种语言。
据昆仑万维消息,6月3日,昆仑万维宣布开源2千亿稀疏大模型Skywork-MoE,性能强劲,同时推理成本更低。Skywork-MoE基于之前昆仑万维开源的Skywork-13B模型中间checkpoint扩展而来,是首个完整将MoE Upcycling技术应用并落地的开源千亿MoE大模型,也是首个支持用单台4090服务器推理的开源千亿MoE大模型。
昆仑万维宣布天工大模型3.0将于4月17日正式发布。据介绍,天工3.0采用4千亿级参数MoE混合专家模型,并将同步选择开源。天工3.0是全球首个多模态“超级模型”(Super Model),集成了AI搜索、AI写作、AI长文本阅读、AI对话、AI语音合成、AI漫画创作、AI音乐生成等多项能力。其中,AI音乐生成大模型SkyMusic还将于4月2日面向社会开启邀测。
2月6日,昆仑万维正式发布新版MoE大语言模型“天工2.0”与新版“天工AI智能助手”App。据官方介绍,此次更新全面升级了AI搜索、对话、阅读、创作的回答质量与响应速度,支持图文对话、文生图等多模态应用,支持最高100K的超长上下文窗口(超过15万个汉字)。