解锁机器人的 3D 视觉：原力灵机推出 GeoVLA 框架，颠覆传统 VLA 模型！

JQR1 · 发表于 2025-12-25 16:15:16

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

在人工智能和机器人技术快速发展的今天，视觉 - 语言 - 行动（VLA）模型被广泛认为是构建通用机器人的关键。然而，许多现有的 VLA 模型(如 OpenVLA、RT-2等)在处理复杂的非结构化环境时暴露出一个严重的短板:空间失明。它们依赖于2D RGB 图像作为视觉输入，导致模型在三维空间中的表现受限，难以准确判断物体的深度和位置。

为了解决这一问题，原力灵机的研究团队推出了一种全新的 VLA 框架 ——GeoVLA。该框架在保持现有视觉 - 语言模型（VLM）强大预训练能力的同时，采用了创新的双流架构。具体来说，GeoVLA 引入了专用的点云嵌入网络(PEN)和空间感知动作专家(3DAE)，使机器人具备真正的三维几何感知能力。这一设计不仅在仿真环境中取得了领先的性能，更在真实世界的各种鲁棒性测试中表现出色。

GeoVLA 的核心逻辑在于将任务进行解耦:让 VLM 负责 “看懂是什么”，让点云网络负责 “看清在哪里”。这个全新的端到端框架包含了三个关键组件的协同工作，分别是语义理解流、几何感知流和动作生成流。这种方法使得模型能够更精准地进行任务。

在一系列实验中，GeoVLA 展现出了明显的优势。在 LIBERO 基准测试中，GeoVLA 的成功率高达97.7%，超越了之前的 SOTA 模型。此外，在 ManiSkill2等更加复杂的物理仿真测试中，GeoVLA 的表现也相当出色，尤其在处理复杂物体和视角变化时，保持了较高的成功率。

更为令人瞩目的是，GeoVLA 在分布外场景中的鲁棒性，证明了其在应对各种不确定性和变化条件下的强大适应能力。这一突破将为未来的机器人应用带来新的可能性，推动智能机器人技术向更高水平迈进。

项目地址:https://linsun449.github.io/GeoVLA/

来源：AIbase

[人工智能] 解锁机器人的 3D 视觉：原力灵机推出 GeoVLA 框架，颠覆传统 VLA 模型！

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们