返回列表 发布新帖
查看: 25|回复: 0

[人工智能] 阿里发布新一代原生全模态大模型Qwen3-Omni并开源

发表于 3 天前 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2025-9-25 16:21 编辑

9月25日消息,近日,通义大模型宣布,新一代原生全模态大模型 Qwen3-Omni 正式发布。

据悉,该模型在 36 项音视频基准测试中,取得了 32 项开源模型最佳效果,22 项达到 SOTA 水平。在音视频能力强劲的同时,文本与图像的单模态性能保持稳定,真正实现“全模态不降智”。

Qwen3-Omni 采用了创新的 Thinker-Talker 架构。将模型能力明确分工,在保障语义理解深度的同时,实现超低延迟的流式语音输出,一举解决“能力不降智”与“响应速度慢”两大难题。同时,基于混合专家(MoE)架构,负责文本语义的理解与生成,是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时,核心的文本与图像能力不受干扰,真正实现“全模态不降智”。同样基于 MoE 架构,专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征,确保语音输出与文本意图高度一致,避免了传统端到端模型在语音生成过程中对语义理解的损耗。

此外,模型的音频编码器采用基于 2000 万小时数据训练的 AuT 模型,为音视频理解提供了强大的通用表征基础。

为实现毫秒级实时交互,Talker 采用了创新的多码本自回归方案,在每一步解码中,MTP(Multi-Token Prediction)模块会预测当前音频帧的残差码本。随后,Code2Wav 模块将这些码本即时合成为波形,实现逐帧流式音频生成。

4D84550F-B9B6-42b6-9D6F-64FA5C08F1.png

如上图所示,Qwen3-Omni 通过 Vision Encoder 和 AuT 音频编码器将图文音视频输入编码为隐藏状态,由 MoE Thinker 负责文本生成与语义理解,再由 MoE Talker 结合 MTP 模块,实现超低延迟的流式语音生成。得益于这一协同设计,Qwen3-Omni 纯模型端到端的音频对话延迟可低至 211ms,视频对话延迟可低至 507ms,交互体验如真人对话般自然流畅。

此外,模型支持长达 30 分钟的音频内容理解,适用于会议记录、课程转录等长语音场景。

Qwen3-Omni在多项权威评测中都表现得不错。在36项音视频基准测试中,32 项取得开源模型最佳效果,22项达到 SOTA 水平。性能表现超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。在 MMLU-Redux、AIME25 等文本评测中,Qwen3-Omni-30B-A3B 得分分别为 85.9 和 64.0,与参数量更大的单模态模型 Qwen3-235B-A22B(89.2, 24.7)表现接近。在 MMMU 和 CountBench 图像理解评测中得分 69.1 和 90.0,与专用视觉模型 Qwen2.5-VL-72B 表现相当。

12BC426C-096F-44ca-B10D-7F18B4E2.png

在语言方面,Qwen3-Omni 支持 119 种文本语言输入、19 种语音输入语言和 10 种语音输出语言,满足全球化应用需求;支持长达 30 分钟的音频内容理解,完整处理会议、课程等长语音场景;语音合成提供 17 种自然音色(Flash版)或 3 种基础音色(开源版),让交互更具个性与温度。

此外,Qwen3-Omni 不仅能力全面,更注重实际场景中的快速适配能力。

个性化行为定制:通过系统提示词(system prompt),用户可轻松调整模型的回复风格、语气或人设。无论是设定为“严谨专业的法律顾问”,还是“亲切活泼的健身教练”,只需一行指令,即可快速匹配不同业务需求。

工具调用(Function Call):支持与外部工具或 API 高效集成。开发者可让模型自动调用数据库、发送邮件、查询天气、操作软件等,构建自动化智能工作流,大幅提升效率。

轻量版模型支持:提供 Qwen3-Omni-Flash版本,在保持核心能力的同时,显著降低推理资源消耗,适合对成本和延迟敏感的应用场景。

3569A71D-76E1-4a69-BC75-1487F42B023.png

据悉,为推动技术开放与社区共建,通义大模型还同步开源了 Qwen3-Omni-30B-A3B-Captioner 模型。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.113437 second(s), 8 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表