返回列表 发布新帖
查看: 77|回复: 0

[人工智能] 阿里通义千问发布小尺寸新模型Qwen3-4B

发表于 2025-8-7 14:29:36 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2025-8-7 14:30 编辑

8月7日消息,今日,阿里通义千问宣布发布更小尺寸新模型——Qwen3-4B-Instruct-2507和Qwen3-4B-Thinking-2507。

据介绍,新模型性能有了大幅提升。在非推理领域,Qwen3-4B-Instruct-2507 全面超越了闭源的 GPT4.1-Nano;在推理领域,Qwen3-4B-Thinking-2507 甚至可以媲美中等规模的 Qwen3-30B-A3B(thinking)。

「2507」版本的 Qwen3-4B 模型,体积小,性能强,对手机等端侧硬件部署尤为友好。

目前新模型已在魔搭社区、Hugging Face正式开源。

以下为模型核心亮点:

Qwen3-4B-Instruct-2507

通用能力显著提升,更全能的端侧利器。Qwen3-4B-Instruct-2507 的通用能力均大幅提升,超越商业闭源的小尺寸模型GPT-4.1-nano,与中等规模的Qwen3-30B-A3B(non-thinking)性能接近。

新模型覆盖更多语言的长尾知识,在主观和开放性任务中增强了人类偏好对齐,可提供更符合人们需求的答复。

上下文理解扩展至256K,小模型也能处理长文本。

Qwen3-4B-Thinking-2507

推理能力大幅增强,AIME25高达81.3分,Qwen3-4B-Thinking-2507的推理表现可媲美中等模型Qwen3-30B-Thinking。

特别是在聚焦数学能力的AIME25测评中,以4B参数量斩获81.3分成绩。

Agent分数爆表,相关评测均超越更大尺寸的Qwen3-30B-Thinking模型。

256K tokens上下文的理解能力,支持更复杂的文档分析、长篇内容生成、跨段落推理等场景。

D0BFEEA2-6E98-4356-BEC5-DB740201A41D.png
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.122899 second(s), 9 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表