设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
微软开源 Phi-4-reasoning-vision-15B,主打轻量化多模 ...
返回列表
发布新帖
查看:
4
|
回复:
0
[人工智能]
微软开源 Phi-4-reasoning-vision-15B,主打轻量化多模态推理
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
4 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
微软近日正式开源了其最新研发的多模态推理模型 Phi-4-reasoning-vision-15B。该模型凭借15B 的参数规模,在保持轻量化的同时,实现了高性能与低成本的理想平衡,为资源受限环境下的复杂视觉任务提供了全新选择。
精细化数据驱动的“小钢炮”
不同于业内动辄消耗万亿级 token 的模型,Phi-4-reasoning-vision 仅使用了200B 多模态 token 进行训练。研发团队将数据质量置于首位,通过深度清洗开源数据、生成定向合成数据以及精密的领域数据配比(如增加数学数据可同步提升计算机操作能力),使其在科学推理和屏幕定位任务上表现优异。
创新的混合推理策略
该模型的一大亮点是采用了“混合推理路径”设计:
感知任务:
在处理图像描述、OCR 等简单任务时,模型默认采用直接作答模式,有效降低延迟。
推理任务:
在面对数学公式、科学图表等复杂逻辑时,模型会自动调用结构化的思维链(CoT)路径,确保答案的准确性。
用户还可以通过特定的引导词,手动切换这两种模式以适配不同场景。
得益于 SigLIP-2动态分辨率编码器的加入,该模型对高分辨率截图中的细小元素具有极强的感知力。这使其成为开发计算机操作助手(CUA)的理想选择,能够精准识别并操作网页或手机界面上的按钮与输入框。
目前,Phi-4-reasoning-vision-15B 已在多个开源平台发布。微软希望通过这款紧凑型模型,证明在多模态领域,“更小、更快”也能与“更强”并行,进一步推动空间智能与实时交互技术的普及。
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2026
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.104776 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表