智元开源VideoDataset：基于GPU硬件解码的VLM训练加速利器

as22 · 发表于 2025-12-9 16:53:18

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

本帖最后由 as22 于 2025-12-9 16:54 编辑

12月9日，据智元机器人公众号消息，智元开源Video Dataset。

据介绍，Video Dataset是智元机器人团队基于实际AI训练需求深度开发的高性能视频数据加载库。

主要特点如下：

极致性能：通过将解码任务从传统的 CPU 转移到 GPU，充分挖掘硬件解码能力，吞吐量提升4倍。

随机访问：解决了硬件解码通常不支持随机寻帧 (Random Seek) 的业界难题，专为AI训练设计的随机采样功能。

无缝集成：兼容PyTorch Dataset接口，提供Mixin类，开发者改几行代码即可接入现有训练流。

据悉，为了更直观地评估VideoDataset的表现，通过将VideoDataset与主流CPU软件解码方案的全面性能对比测试，测试对象包括OpenCV、Torchvision（PyAV）、Torchvision（VideoReader）和TorchCodec。

结果显示，VideoDataset与主流 CPU 软件解码方案对比，在解码吞吐量上提升了3到4倍。并且，它能更有效地分担计算负载，从而将解码任务近乎剥离CPU。这一优势使得 VideoDataset 在大规模视频数据训练中不仅能提供更高的解码效率，还能最大限度地利用GPU资源，提高整体训练效率。

同时，由于支持多解码器复用，在面对实际训练中海量视频随机解码的场景下，VideoDataset 的解码吞吐量相比主流GPU硬件解码方案同样也有明显的优势。

VideoDataset基于NVIDIA Video Codec SDK进行封装，通过多解码器（Decoder）调度和生产者—消费者模型等多种手段实现了解码与训练的完全异步流水线，使解码器利用率达到90%以上，提升了解码性能和吞吐量。

另外，Videodataset通过将视频进行GOP级切分，支持快速定位到关键帧。

[人工智能] 智元开源VideoDataset：基于GPU硬件解码的VLM训练加速利器

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们