阿里发布新一代全模态大模型Qwen3.5-Omni – 中国前沿资讯

站长之家（ChinaZ.com）3月31日消息:今日，阿里巴巴正式推出了其新一代全模态大模型——千问Qwen3.5-Omni。这款大模型采用了先进的混合注意力MoE架构，能够轻松处理图片、视频、语音以及文字等多种模态内容的输入与输出，展现出强大的多模态处理能力。

在多项测试中，Qwen3.5-Omni表现卓越，尤其在音视频理解、识别与交互等215项任务中，均取得了SOTA（性能最佳）的佳绩，成功超越了Gemini-3.1Pro，跻身全球最强全模态大模型之列。具体而言，在DailyOmni、QualcommInteractive、Omni Cloze等聚焦视听交互能力的测试中，Qwen3.5-Omni的得分远超Gemini-3.1Pro;在检测嘈杂环境抗干扰能力的WenetSpeech测试中，其错误率极低，识别准确率极高;在考察多语言语音生成质量的Multi-Lingual (30lang) 测试中，Qwen3.5-Omni同样展现出了显著优势，优于Gemini-2.5-Pro-TTS。

Qwen3.5-Omni不仅具备出色的音视频理解与实时交互能力，还能对音视频内容生成详细且可控的结构化描述。新模型支持113种语言及方言的语音识别和36种语言及方言的语音生成，即便是使用人数较少的毛利语和国内的海南方言，也能实现精准识别。

值得一提的是，基于一系列技术创新，Qwen3.5-Omni将Vibe Coding能力提升至新高度。与纯文本或图片驱动的Vibe Coding不同，千问实现了音视频编程:用户只需打开摄像头，对着草图口述需求，即便是包含复杂产品逻辑的描述，模型也能直接生成带有复杂UI的产品原型界面，真正实现了“动动嘴即可编程”的便捷体验。

此外，Qwen3.5-Omni的全模态能力还能为专业领域带来显著的生产力提升。新模型能够对画面主体、人物关系、对话逻辑乃至人物情绪起伏进行细致拆解，并自动完成视频章节切片与时间戳标注，支持长达10小时以上的音频输入。

目前，阿里云百炼平台已上线Qwen3.5-Omni的Plus、Flash、Light三种API，可广泛应用于短视频/直播平台、游戏、自媒体等多个行业。普通用户可前往Qwen Chat免费体验，开发者和企业则可通过阿里云百炼平台调用Qwen3.5-Omni模型，每百万Tokens输入费用不到0.8元，仅为Gemini-3.1Pro的十分之一。

（举报）

相关文章

以学生为中心使用人工智能

石家庄市人工智能协会成立

南方基金旗下科创人工智能ETF南方(589230)劲升涨超3.5%，上海全面实施“人工智能+”行动，机构看好AI产业后续催化

人工智能ETF易方达（159819）涨1.68%，成交额7.88亿元

联想拯救者Y900系列发布：万级电池+旗舰芯片 2699元起

联想moto razr 70 Ultra小折叠发布：7499元起