返回列表 发布新帖
查看: 13|回复: 0

[人工智能] 智元开源VideoDataset:基于GPU硬件解码的VLM训练加速利器

发表于 昨天 16:53 | 查看全部 |阅读模式

这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!

您需要 登录 才可以下载或查看,没有账号?立即注册

×
本帖最后由 as22 于 2025-12-9 16:54 编辑

12月9日,据智元机器人公众号消息,智元开源Video Dataset。

据介绍,Video Dataset是智元机器人团队基于实际AI训练需求深度开发的高性能视频数据加载库。

主要特点如下:

极致性能: 通过将解码任务从传统的 CPU 转移到 GPU,充分挖掘硬件解码能力,吞吐量提升4倍。

随机访问: 解决了硬件解码通常不支持随机寻帧 (Random Seek) 的业界难题,专为AI训练设计的随机采样功能。

无缝集成: 兼容PyTorch Dataset接口,提供Mixin类,开发者改几行代码即可接入现有训练流。

7A4066F7-7B54-4727-ACE1-5D19F8C1FE02.png

据悉,为了更直观地评估VideoDataset的表现,通过将VideoDataset与主流CPU软件解码方案的全面性能对比测试,测试对象包括OpenCV、Torchvision(PyAV)、Torchvision(VideoReader)和TorchCodec。

结果显示,VideoDataset与主流 CPU 软件解码方案对比,在解码吞吐量上提升了3到4倍。并且,它能更有效地分担计算负载,从而将解码任务近乎剥离CPU。这一优势使得 VideoDataset 在大规模视频数据训练中不仅能提供更高的解码效率,还能最大限度地利用GPU资源,提高整体训练效率。

371F5134-AEB8-4a57-9570-E5AEF76E16FE.png

9CC9224C-9153-43ca-B2DC-3729E4B339D5.png

同时,由于支持多解码器复用,在面对实际训练中海量视频随机解码的场景下,VideoDataset 的解码吞吐量相比主流GPU硬件解码方案同样也有明显的优势。

5F273C6F-63F8-43cc-A677-550ED5DABE63.png

VideoDataset基于NVIDIA Video Codec SDK进行封装,通过多解码器(Decoder)调度和生产者—消费者模型等多种手段实现了解码与训练的完全异步流水线,使解码器利用率达到90%以上,提升了解码性能和吞吐量。

另外,Videodataset通过将视频进行GOP级切分,支持快速定位到关键帧。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

Copyright © 2001-2025 Suike Tech All Rights Reserved. 随客交流社区 (备案号:津ICP备19010126号) |Processed in 0.130910 second(s), 8 queries , Gzip On, MemCached On.
关灯 在本版发帖返回顶部
快速回复 返回顶部 返回列表