设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
阿里发布新一代原生全模态大模型Qwen3-Omni并开源 ...
返回列表
发布新帖
查看:
25
|
回复:
0
[人工智能]
阿里发布新一代原生全模态大模型Qwen3-Omni并开源
as22
as22
当前离线
UID
12
星火
贡献
奖金
发表于
3 天前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
本帖最后由 as22 于 2025-9-25 16:21 编辑
9月25日消息,近日,通义大模型宣布,新一代原生全模态大模型 Qwen3-Omni 正式发布。
据悉,该模型在 36 项音视频基准测试中,取得了 32 项开源模型最佳效果,22 项达到 SOTA 水平。在音视频能力强劲的同时,文本与图像的单模态性能保持稳定,真正实现“全模态不降智”。
Qwen3-Omni 采用了创新的 Thinker-Talker 架构。将模型能力明确分工,在保障语义理解深度的同时,实现超低延迟的流式语音输出,一举解决“能力不降智”与“响应速度慢”两大难题。同时,基于混合专家(MoE)架构,负责文本语义的理解与生成,是模型处理逻辑、知识和推理的“大脑”。它确保了在处理音视频任务时,核心的文本与图像能力不受干扰,真正实现“全模态不降智”。同样基于 MoE 架构,专注于流式语音 Token 的生成。它直接接收来自 Thinker 的高层语义表征,确保语音输出与文本意图高度一致,避免了传统端到端模型在语音生成过程中对语义理解的损耗。
此外,模型的音频编码器采用基于 2000 万小时数据训练的 AuT 模型,为音视频理解提供了强大的通用表征基础。
为实现毫秒级实时交互,Talker 采用了创新的多码本自回归方案,在每一步解码中,MTP(Multi-Token Prediction)模块会预测当前音频帧的残差码本。随后,Code2Wav 模块将这些码本即时合成为波形,实现逐帧流式音频生成。
如上图所示,Qwen3-Omni 通过 Vision Encoder 和 AuT 音频编码器将图文音视频输入编码为隐藏状态,由 MoE Thinker 负责文本生成与语义理解,再由 MoE Talker 结合 MTP 模块,实现超低延迟的流式语音生成。得益于这一协同设计,Qwen3-Omni 纯模型端到端的音频对话延迟可低至 211ms,视频对话延迟可低至 507ms,交互体验如真人对话般自然流畅。
此外,模型支持长达 30 分钟的音频内容理解,适用于会议记录、课程转录等长语音场景。
Qwen3-Omni在多项权威评测中都表现得不错。在36项音视频基准测试中,32 项取得开源模型最佳效果,22项达到 SOTA 水平。性能表现超越 Seed-ASR、GPT-4o-Transcribe 等闭源模型。在 MMLU-Redux、AIME25 等文本评测中,Qwen3-Omni-30B-A3B 得分分别为 85.9 和 64.0,与参数量更大的单模态模型 Qwen3-235B-A22B(89.2, 24.7)表现接近。在 MMMU 和 CountBench 图像理解评测中得分 69.1 和 90.0,与专用视觉模型 Qwen2.5-VL-72B 表现相当。
在语言方面,Qwen3-Omni 支持 119 种文本语言输入、19 种语音输入语言和 10 种语音输出语言,满足全球化应用需求;支持长达 30 分钟的音频内容理解,完整处理会议、课程等长语音场景;语音合成提供 17 种自然音色(Flash版)或 3 种基础音色(开源版),让交互更具个性与温度。
此外,Qwen3-Omni 不仅能力全面,更注重实际场景中的快速适配能力。
个性化行为定制:通过系统提示词(system prompt),用户可轻松调整模型的回复风格、语气或人设。无论是设定为“严谨专业的法律顾问”,还是“亲切活泼的健身教练”,只需一行指令,即可快速匹配不同业务需求。
工具调用(Function Call):支持与外部工具或 API 高效集成。开发者可让模型自动调用数据库、发送邮件、查询天气、操作软件等,构建自动化智能工作流,大幅提升效率。
轻量版模型支持:提供 Qwen3-Omni-Flash版本,在保持核心能力的同时,显著降低推理资源消耗,适合对成本和延迟敏感的应用场景。
据悉,为推动技术开放与社区共建,通义大模型还同步开源了 Qwen3-Omni-30B-A3B-Captioner 模型。
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.113437 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表