2026年3月31日消息:

阿里发布新一代全模态大模型Qwen3.5-Omni

最新高纬度讯息,请点击下图围观:

站长之家(ChinaZ.com)3月31日 消息:今日,阿里巴巴正式推出了其新一代全模态大模型——千问Qwen3.5-Omni。这款大模型采用了先进的混合注意力MoE架构,能够轻松处理图片、视频、语音以及文字等多种模态内容的输入与输出,展现出强大的多模态处理能力。

在多项测试中,Qwen3.5-Omni表现卓越,尤其在音视频理解、识别与交互等215项任务中,均取得了SOTA(性能最佳)的佳绩,成功超越了Gemini-3.1Pro,跻身全球最强全模态大模型之列。具体而言,在DailyOmni、QualcommInteractive、Omni Cloze等聚焦视听交互能力的测试中,Qwen3.5-Omni的得分远超Gemini-3.1Pro;在检测嘈杂环境抗干扰能力的WenetSpeech测试中,其错误率极低,识别准确率极高;在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中,Qwen3.5-Omni同样展现出了显著优势,优于Gemini-2.5-Pro-TTS。

Qwen3.5-Omni不仅具备出色的音视频理解与实时交互能力,还能对音视频内容生成详细且可控的结构化描述。新模型支持113种语言及方言的语音识别和36种语言及方言的语音生成,即便是使用人数较少的毛利语和国内的海南方言,也能实现精准识别。

值得一提的是,基于一系列技术创新,Qwen3.5-Omni将Vibe Coding能力提升至新高度。与纯文本或图片驱动的Vibe Coding不同,千问实现了音视频编程:用户只需打开摄像头,对着草图口述需求,即便是包含复杂产品逻辑的描述,模型也能直接生成带有复杂UI的产品原型界面,真正实现了“动动嘴即可编程”的便捷体验。

此外,Qwen3.5-Omni的全模态能力还能为专业领域带来显著的生产力提升。新模型能够对画面主体、人物关系、对话逻辑乃至人物情绪起伏进行细致拆解,并自动完成视频章节切片与时间戳标注,支持长达10小时以上的音频输入。

目前,阿里云百炼平台已上线Qwen3.5-Omni的Plus、Flash、Light三种API,可广泛应用于短视频/直播平台、游戏、自媒体等多个行业。普通用户可前往Qwen Chat免费体验,开发者和企业则可通过阿里云百炼平台调用Qwen3.5-Omni模型,每百万Tokens输入费用不到0.8元,仅为Gemini-3.1Pro的十分之一。

(举报)

返回顶部