9月26日,阿里通义千问正式发布Qwen3-Omni。据通义千问介绍,Qwen3-Omni是原生全模态大模型,预训练全模态不降智,并在36项音频及音视频基准测试中获32项开源SOTA与22项总体SOTA,超越Gemini-2.5-Pro、Seed-ASR、GPT-4o-Transcribe等闭源强模型。
8月19日,通义千问宣布,推出Qwen-Image-Edit,Qwen-Image的图像编辑版本。Qwen-Image-Edit基于20B的Qwen-Image模型进⼀步训练,将Qwen-Image的文本渲染能力延展至图像编辑领域,实现了对图片中文字的精准编辑。
8月7日,阿里通义千问发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。据通义千问介绍,在非推理领域,Qwen3-4B-Instruct-2507全面超越了闭源的GPT4.1-Nano;在推理领域,Qwen3-4B-Thinking-2507甚至可以媲美中等规模的Qwen3-30B-A3B(thinking)。目前新模型已在魔搭社区、HuggingFace正式开源。
6月28日,阿里推出多模态统一理解与生成模型Qwen VLo,用户可通过Qwen Chat访问该模型(预览版)。Qwen VLo具有三大亮点:理解和生成更准确,支持开放指令编辑修改图片,以及多语言指令支持。用户可发送如“生成一张可爱猫咪的图片”或“给猫咪头上加顶帽子”等指令来生成或修改图像。该模型还支持包括中文、英文在内的多种语言指令,为全球用户提供了便捷的交互体验。
通义千问3月27日宣布发布Qwen2.5-Omni,Qwen模型家族中新一代端到端多模态旗舰模型。该模型专为全方位多模态感知设计,能够无缝处理文本、图像、音频和视频等多种输入形式,并通过实时流式响应同时生成文本与自然语音合成输出。该模型现已在Hugging Face、ModelScope、DashScope和GitHub上开源开放。
11月13日,据阿里云消息,阿里云通义大模型团队正式开源通义千问代码模型全系列,共6款Qwen2.5-Coder模型。此次开源共推出0.5B/1.5B/3B/7B/14B/32B等6个尺寸的全系列模型,每个尺寸都开源了Base和Instruct模型。其中,Base模型可供开发者微调,Instruct模型则是开箱即用的官方对齐模型。
9月19日云栖大会,阿里云CTO周靖人发布通义千问新一代开源模型Qwen2.5,其中,旗舰模型Qwen2.5-72B性能超越Llama 405B,再登全球开源大模型王座。Qwen2.5涵盖多个尺寸的大语言模型、多模态模型、数学模型和代码模型,每个尺寸都有基础版本、指令跟随版本、量化版本,总计上架100多个模型,刷新业界纪录。截至2024年9月中旬,通义千问开源模型累计下载量已突破4000万,成为仅次于Llama的世界级模型群。
1月26日消息,阿里云公布了多模态大模型的最新研究成果,继Plus版本之后,再次推出Max版本。Qwen-VL-Max模型在视觉推理方面展现出卓越的能力,可以理解并分析复杂的图片信息,包括识人、答题、创作和写代码等任务。此外,该模型还具备视觉定位功能,可根据画面指定区域进行问答。目前,Qwen-VL-Plus和Qwen-VL-Max限时免费向用户开放。用户可以在通义千问官网、通义千问APP直接体验Max版本模型的能力,也可以通过阿里云灵积平台(DashScope)调用模型API。