设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
解锁机器人的 3D 视觉:原力灵机推出 GeoVLA 框架,颠覆 ...
返回列表
发布新帖
查看:
5
|
回复:
0
[人工智能]
解锁机器人的 3D 视觉:原力灵机推出 GeoVLA 框架,颠覆传统 VLA 模型!
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
2 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
在人工智能和机器人技术快速发展的今天,视觉 - 语言 - 行动(VLA)模型被广泛认为是构建通用机器人的关键。然而,许多现有的 VLA 模型(如 OpenVLA、RT-2等)在处理复杂的非结构化环境时暴露出一个严重的短板:空间失明。它们依赖于2D RGB 图像作为视觉输入,导致模型在三维空间中的表现受限,难以准确判断物体的深度和位置。
为了解决这一问题,原力灵机的研究团队推出了一种全新的 VLA 框架 ——GeoVLA。该框架在保持现有视觉 - 语言模型(VLM)强大预训练能力的同时,采用了创新的双流架构。具体来说,GeoVLA 引入了专用的点云嵌入网络(PEN)和空间感知动作专家(3DAE),使机器人具备真正的三维几何感知能力。这一设计不仅在仿真环境中取得了领先的性能,更在真实世界的各种鲁棒性测试中表现出色。
GeoVLA 的核心逻辑在于将任务进行解耦:让 VLM 负责 “看懂是什么”,让点云网络负责 “看清在哪里”。这个全新的端到端框架包含了三个关键组件的协同工作,分别是语义理解流、几何感知流和动作生成流。这种方法使得模型能够更精准地进行任务。
在一系列实验中,GeoVLA 展现出了明显的优势。在 LIBERO 基准测试中,GeoVLA 的成功率高达97.7%,超越了之前的 SOTA 模型。此外,在 ManiSkill2等更加复杂的物理仿真测试中,GeoVLA 的表现也相当出色,尤其在处理复杂物体和视角变化时,保持了较高的成功率。
更为令人瞩目的是,GeoVLA 在分布外场景中的鲁棒性,证明了其在应对各种不确定性和变化条件下的强大适应能力。这一突破将为未来的机器人应用带来新的可能性,推动智能机器人技术向更高水平迈进。
项目地址:
https://linsun449.github.io/GeoVLA/
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.109983 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表