设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
腾讯混元开源 HunyuanOCR 模型:1B 参数斩获多项 SOTA, ...
返回列表
发布新帖
查看:
10
|
回复:
0
[人工智能]
腾讯混元开源 HunyuanOCR 模型:1B 参数斩获多项 SOTA,多场景赋能 OCR 应用
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
4 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
11月25日,腾讯混元正式宣布开源全新 OCR 模型 HunyuanOCR。该模型参数仅10亿(1B),依托混元原生多模态架构打造,在多项业界 OCR 应用榜单中斩获 SOTA(最先进水平)成绩,为 OCR 技术落地提供轻量化高效解决方案。
HunyuanOCR 采用全端到端范式设计,由原生分辨率视频编码器、自适应视觉适配器和轻量化混元语言模型三部分构成。其核心优势在于 “高效便捷”:体积小巧便于部署,单次前向推理即可实现功能最优输出,效率远超业界级联方案。
性能方面,HunyuanOCR 表现亮眼。在复杂文档解析的 OmniDocBench 测评中,以94.1分超越谷歌 Gemini3-Pro 等领先模型;在覆盖文档、手写、街景等9大场景的自建基准测试中,文字检测和识别能力大幅领先同类开源及商业模型;OCRBench 榜单上,其以1B 参数斩获总参数3B 以下模型 SOTA,总得分860分。小语种翻译领域,该模型支持14种高频小语种与中 / 英文互译,还拿下 ICDAR2025端到端文档翻译比赛小模型赛道冠军。
应用场景上,HunyuanOCR 可实现多语种复杂文档解析、票据字段 JSON 格式提取、视频双语字幕自动抽取等功能,已覆盖卡证处理、视频创作、跨境沟通等领域。目前,用户可通过 web 端、移动端链接或 GitHub、Hugging Face 开源地址下载体验,直接访问 Hugging Face 空间即可快速试用。
地址:
https://hunyuan.tencent.com/vision/zh?tabIndex=0
https://github.com/Tencent-Hunyuan/HunyuanOCR
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.107941 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表