2026 年 3 月 30 日,阿里巴巴通义实验室正式发布旗舰级原生全模态大模型 Qwen3.5-Omni。该模型在音频、音视频理解、推理及交互等 215 项国际权威基准测试中取得 SOTA(最先进水平)成绩,全面超越谷歌 Gemini-3.1 Pro,登顶全球榜首。作为阿里"AI 驱动云计算”战略的核心落子,Qwen3.5-Omni 凭借端到端架构将实时对话响应延迟压缩至 1-2 秒,标志着多模态 AI 技术从“拼接式”向“原生融合”的重大跨越,重新定义了人机交互的效率边界。
此次发布的 Qwen3.5-Omni 系列包含 Plus、Flash、Light 三种尺寸,均采用创新的 Hybrid-Attention MoE(混合注意力专家)架构。官方数据显示,该模型基于超过 1 亿小时的音视频及文本数据进行原生跨模态预训练,彻底打通了文本、图像、音频、视频的底层语义逻辑。
在核心性能指标上,Qwen3.5-Omni 展现出惊人的处理能力:支持 256k 超长上下文,可一次性解析超过 10 小时的音频输入或 400 秒的 720P 音视频内容。在 DailyOmni、WenetSpeech 等 215 项评测任务中,其通用音频理解、推理、识别及翻译能力均优于 Gemini-3.1 Pro,嘈杂环境下的语音识别错误率更下降了 42%。尤为引人注目的是其“实时交互”能力,从用户发送语音到模型返回音频响应,端到端延迟控制在 1-2 秒内,达到了人类感知无差别的水平。此外,模型原生支持 113 种语言识别(含毛利语等濒危语种)和 36 种语音生成,并具备“Vibe Coding”等非预设涌现能力,可根据草图或口述直接生成可运行代码。

近年来,全球大模型竞争已从单一的文本能力转向多模态深度融合。此前,行业主流方案多采用“视觉模型 + 语言模型 + 语音模型”的拼接式架构,这种模式虽能实现基本功能,但在信息传递中存在显著的损耗与延迟问题,难以满足高实时性场景需求。随着短视频、直播及智能硬件市场的爆发,市场对低延迟、高保真的全模态交互需求日益迫切。
阿里通义千问系列此前已在企业级市场占据领先地位。据沙利文报告,2025 年下半年中国企业级大模型日均调用量飙升至 37.0 万亿 tokens,阿里云千问市场份额跃升至 32.1%。此次 Qwen3.5-Omni 的发布,是阿里将 AI 业务升级为集团战略核心后的首个旗舰产品,旨在解决行业长期存在的“全模态不降智”难题,巩固其在 MaaS(模型即服务)领域的护城河。

Qwen3.5-Omni 的问世将对全球 AI 行业格局产生深远影响。首先,它确立了原生端到端架构在多模态领域的技术标杆,迫使竞争对手加速淘汰拼接式方案。其次,其实时交互能力的突破将极大拓展 AI 的应用边界,从传统的客服、内容审核延伸至实时同传、智能伴聊、沉浸式教育及“用嘴编程”等高频场景。
对于市场而言,阶梯计费的 API 策略(音频输入 4.96 元/百万 tokens,文本/视频输入 0.8 元/百万 tokens)降低了中小企业的使用门槛,有望加速 AI 在消费电子、汽车及金融行业的落地。对于谷歌等国际巨头,Qwen3.5-Omni 在 215 项任务上的全面胜出,意味着其在多模态领域的领先优势正面临严峻挑战,全球大模型第一梯队的竞争将更加白热化。

业内专家普遍认为,Qwen3.5-Omni 在长视频理解和多语言方言支持上的表现具有里程碑意义。有开发者在实测后指出,该模型在处理中文长播客及方言对话时,准确度远超预期,且联网搜索功能未干扰主线逻辑,表现出极强的指令遵循能力。市场反应方面,阿里云百炼平台上线首日即迎来大量企业客户咨询,覆盖互联网、汽车等多个行业。尽管部分测试显示其在纯视觉时钟识别等特定任务上略逊于同尺寸单模态模型,但整体“全模态不降智”的评价已成为行业共识。
随着 Qwen3.5-Omni 在 chat.qwen.ai、Hugging Face 及魔搭社区的全面开放,预计未来数月内将涌现出大量基于该模型的创新应用。值得关注的是,阿里已明确“未来五年云和 AI 商业化年收入突破 1000 亿美元”的战略目标,Qwen 系列将成为核心引擎。下一步,业界将重点关注该模型在端侧设备的部署进展,以及其在更多垂直领域(如医疗影像分析、法律庭审记录)的深度适配情况。多模态 AI 的“实时化”与“普惠化”时代已正式开启。
已是最新文章