智元开源VideoDataset:基于GPU硬件解码的VLM训练加速利器
本帖最后由 as22 于 2025-12-9 16:54 编辑12月9日,据智元机器人公众号消息,智元开源Video Dataset。
据介绍,Video Dataset是智元机器人团队基于实际AI训练需求深度开发的高性能视频数据加载库。
主要特点如下:
极致性能: 通过将解码任务从传统的 CPU 转移到 GPU,充分挖掘硬件解码能力,吞吐量提升4倍。
随机访问: 解决了硬件解码通常不支持随机寻帧 (Random Seek) 的业界难题,专为AI训练设计的随机采样功能。
无缝集成: 兼容PyTorch Dataset接口,提供Mixin类,开发者改几行代码即可接入现有训练流。
据悉,为了更直观地评估VideoDataset的表现,通过将VideoDataset与主流CPU软件解码方案的全面性能对比测试,测试对象包括OpenCV、Torchvision(PyAV)、Torchvision(VideoReader)和TorchCodec。
结果显示,VideoDataset与主流 CPU 软件解码方案对比,在解码吞吐量上提升了3到4倍。并且,它能更有效地分担计算负载,从而将解码任务近乎剥离CPU。这一优势使得 VideoDataset 在大规模视频数据训练中不仅能提供更高的解码效率,还能最大限度地利用GPU资源,提高整体训练效率。
同时,由于支持多解码器复用,在面对实际训练中海量视频随机解码的场景下,VideoDataset 的解码吞吐量相比主流GPU硬件解码方案同样也有明显的优势。
VideoDataset基于NVIDIA Video Codec SDK进行封装,通过多解码器(Decoder)调度和生产者—消费者模型等多种手段实现了解码与训练的完全异步流水线,使解码器利用率达到90%以上,提升了解码性能和吞吐量。
另外,Videodataset通过将视频进行GOP级切分,支持快速定位到关键帧。
页:
[1]