设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
智元开源VideoDataset:基于GPU硬件解码的VLM训练加速利 ...
返回列表
发布新帖
查看:
13
|
回复:
0
[人工智能]
智元开源VideoDataset:基于GPU硬件解码的VLM训练加速利器
as22
as22
当前离线
UID
12
星火
贡献
奖金
发表于
昨天 16:53
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
本帖最后由 as22 于 2025-12-9 16:54 编辑
12月9日,据智元机器人公众号消息,智元开源Video Dataset。
据介绍,Video Dataset是智元机器人团队基于实际AI训练需求深度开发的高性能视频数据加载库。
主要特点如下:
极致性能: 通过将解码任务从传统的 CPU 转移到 GPU,充分挖掘硬件解码能力,吞吐量提升4倍。
随机访问: 解决了硬件解码通常不支持随机寻帧 (Random Seek) 的业界难题,专为AI训练设计的随机采样功能。
无缝集成: 兼容PyTorch Dataset接口,提供Mixin类,开发者改几行代码即可接入现有训练流。
据悉,为了更直观地评估VideoDataset的表现,通过将VideoDataset与主流CPU软件解码方案的全面性能对比测试,测试对象包括OpenCV、Torchvision(PyAV)、Torchvision(VideoReader)和TorchCodec。
结果显示,VideoDataset与主流 CPU 软件解码方案对比,在解码吞吐量上提升了3到4倍。并且,它能更有效地分担计算负载,从而将解码任务近乎剥离CPU。这一优势使得 VideoDataset 在大规模视频数据训练中不仅能提供更高的解码效率,还能最大限度地利用GPU资源,提高整体训练效率。
同时,由于支持多解码器复用,在面对实际训练中海量视频随机解码的场景下,VideoDataset 的解码吞吐量相比主流GPU硬件解码方案同样也有明显的优势。
VideoDataset基于NVIDIA Video Codec SDK进行封装,通过多解码器(Decoder)调度和生产者—消费者模型等多种手段实现了解码与训练的完全异步流水线,使解码器利用率达到90%以上,提升了解码性能和吞吐量。
另外,Videodataset通过将视频进行GOP级切分,支持快速定位到关键帧。
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.130910 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表