设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
Moondream3.0发布,多项基准测试超越了 GPT-5 等顶尖模 ...
返回列表
发布新帖
查看:
79
|
回复:
0
[人工智能]
Moondream3.0发布,多项基准测试超越了 GPT-5 等顶尖模型
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于 2025-9-28 15:23:06
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
在最新发布的 Moondream3.0预览版中,这款以高效混合专家(MoE)架构为基础的模型展示了令人惊叹的视觉推理能力。Moondream3.0拥有总共9亿参数,但仅激活2亿参数的轻量化设计,使其在复杂场景中的表现尤为突出。与之前的 Moondream2版本相比,3.0在多项基准测试中超越了如 GPT-5、Gemini 和 Claude4等业内顶尖模型,真正实现了技术的飞跃。
Moondream3.0的设计支持32K 的上下文长度,非常适合实时交互和代理工作流。该模型搭载了创新的 SigLIP 视觉编码器,可以进行高分辨率图像处理,支持多裁剪通道拼接。通过使用自定义的高效 SuperBPE 分词器以及结合多头注意力机制,模型在长上下文建模方面的能力得到了显著提升。虽然训练数据量仅为约450亿个令牌,远低于其他头部模型的万亿级别,但 Moondream3.0依然能够实现卓越的性能。
这款模型的一个主要亮点是其 “全能” 视觉技能,包括开放词汇的物体检测、点选、计数、字幕生成和光学字符识别(OCR)。其支持结构化输出,能够直接生成 JSON 数组,例如提取狗的 ID、毛色和背带颜色等信息。此外,Moondream3.0在用户界面理解、文档转录和物体定位方面的表现也令人印象深刻。
早期基准测试结果显示,Moondream3.0在 COCO 物体检测中的得分达到了51.2,相较于前代提升了20.7;OCRBench 的得分从58.3上升至61.2,而 ScreenSpot UI
F1@0.5
的得分则为60.3。在实际应用中,该模型能够轻松识别复杂场景,例如识别穿紫色袜子的人、选中购物网页数量输入框、标记瓶子以及推荐适合意大利面的餐具。它的应用范围不仅限于安防监控和无人机巡检,还延伸到医学影像和企业级文档处理。
Moondream3.0是一个开源模型,强调 “无训练、无地面真相数据、无重型基础设施” 的理念。开发者只需简单提示即可解锁其强大的视觉理解能力。根据社区反馈,该模型已在机器人语义行为、移动设备和 Raspberry Pi 上成功部署,适合边缘计算场景。
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.104917 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表