设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
vLLM-Omni 发布:可以处理文本、图像、音频和视频 ...
返回列表
发布新帖
查看:
12
|
回复:
0
[人工智能]
vLLM-Omni 发布:可以处理文本、图像、音频和视频
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
昨天 14:35
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
在近日举行的技术发布会上,vLLM 团队正式推出了 vLLM-Omni,这是一个面向全模态(omni-modality)模型的推理框架。这一新框架旨在简化多模态推理的过程,并为新一代能够理解和生成多种形式内容的模型提供强有力的支持。与传统的文本输入输出模型不同,vLLM-Omni 可以处理文本、图像、音频和视频等多种输入输出类型。
自项目启动以来,vLLM 团队一直致力于为大型语言模型(LLM)提供高效的推理能力,尤其是在吞吐量和显存使用方面。然而,现代的生成模型已经超越了单一的文本交互,需求多样化的推理能力逐渐成为趋势。vLLM-Omni 正是在这一背景下应运而生,它是首批支持全模态推理的开源框架之一。
vLLM-Omni 采用了一种全新的解耦流水线架构,通过对数据流的重新设计,能够高效地将不同阶段的推理任务进行分配和协调。在这一架构中,推理请求主要经过三类关键组件:模态编码器、LLM 核心和模态生成器。模态编码器负责将多模态输入转换为向量表示,LLM 核心则处理文本生成和多轮对话,而模态生成器则用于输出图像、音频或视频内容。
这一创新架构的推出,将为工程团队带来诸多便利,允许他们在不同阶段进行独立的资源扩展与部署设计。此外,团队可以根据实际业务需求调整资源分配,从而提高整体工作效率。
GitHub :
https://github.com/vllm-project/vllm-omni
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.115069 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表