设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
小米开源首代机器人 VLA 大模型,突破“物理智能”延迟 ...
返回列表
发布新帖
查看:
19
|
回复:
0
[人工智能]
小米开源首代机器人 VLA 大模型,突破“物理智能”延迟瓶颈
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
3 天前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
具身智能(Embodied AI)领域今日迎来重磅进展。小米正式开源其首代机器人大模型 Xiaomi-Robotics-0。该模型拥有 47亿参数,旨在解决现有 VLA(视觉-语言-动作)模型由于推理延迟导致机器人动作迟缓的痛点,实现了在消费级显卡上的实时推理与高效泛化。
核心架构:大脑与小脑的协同
为了兼顾通用理解与高频控制,Xiaomi-Robotics-0采用了创新的 MoT(Mixture-of-Transformers)混合架构:
视觉语言大脑(VLM):
作为底座,负责解析人类模糊指令并捕捉高清视觉中的空间关系。
动作执行小脑(Action Expert):
嵌入多层 Diffusion Transformer (DiT),通过流匹配技术生成精准的“动作块(Action Chunk)”,确保物理执行的灵活性。
训练秘籍:两阶段进化论
小米研发团队通过严谨的训练配方,平衡了模型的常识理解与体力操作能力:
跨模态预训练:
引入 Action Proposal 机制,使 VLM 在保持逻辑推理能力的同时,实现特征空间与动作空间的对齐。随后冻结 VLM,专项训练 DiT 以生成平滑的动作序列。
后训练(Post-training):
针对真机运行的“动作断层”问题,采用异步推理模式。结合 Clean Action Prefix(确保轨迹连续)与 Λ-shape Attention Mask(强制关注当前视觉反馈),使机器人在面对环境突发变化时具备极强的响应敏捷性。
实战表现:刷新多项 SOTA
在测试中,Xiaomi-Robotics-0展现了统治级的性能:
仿真标杆:
在 LIBERO、CALVIN 和 SimplerEnv 三大主流仿真测试中,击败了30种对比模型,均取得当前最优成绩(SOTA)。
真机泛化:
在双臂机器人平台上,无论是拆解积木还是折叠柔性毛巾,模型均表现出极高的手眼协调性与物理泛化能力。
开源生态
小米此次全面开放了技术资源,包括 技术主页、开源代码 以及在 Hugging Face 发布的 模型权重,旨在通过社区力量共同推动具身智能的边界。
技术主页:
https://xiaomi-robotics-0.github.io
开源代码:
https://github.com/XiaomiRobotics/Xiaomi-Robotics-0
模型权重:
https://huggingface.co/XiaomiRobotics
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2026
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.114966 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表