设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
蚂蚁数科推出多语种视觉大模型训练框架,高效识别文档伪 ...
返回列表
发布新帖
查看:
10
|
回复:
0
[人工智能]
蚂蚁数科推出多语种视觉大模型训练框架,高效识别文档伪造与逻辑矛盾
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
6 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
近日, 蚂蚁数科在香港金融科技节上发布了一项革命性的技术 ——“多语种多模态大模型训练框架”,旨在解决当前大模型在多语言环境中的应用瓶颈。随着人工智能技术的飞速发展,大模型正逐渐成为提升各行业效率的重要工具。然而,传统以英文为母语的大模型在小语种环境中表现不佳,常常面临 “语言错乱” 和推理信息混乱的问题,这严重制约了其全球化应用。
为应对这一挑战,蚂蚁数科的研究团队开发了这一新框架,并在多文化多语言视觉问答基准测试(CVQA)中取得了显著成果。该框架在埃及阿拉伯语、印尼爪哇语、巴哈萨语及巽他语等资源稀缺的小语种上表现尤为突出,展现出卓越的多语言识别能力,成功跻身榜首。
这一突破的核心在于创新的语言感知优化框架。该框架通过 “以目标语言进行思考” 的机制,结合细粒度多维度的奖励策略与自动化数据解决方案,实现在小语种的深度理解和处理。根据测试结果,与同等规模的开源模型相比,该框架在主流多语言视觉问答(Multilingual Visual Question Answering, VQA)基准测试中准确率提升了约9.5%,在部分任务中甚至优于 GPT-4o 和 Gemini-2.5-flash 等国际主流闭源模型,获得评测总分第一。
在安全能力方面,蚂蚁数科还推出了图像安全框架,结合视觉分析与常识推理的伪造识别路径,能够高效识别图像中的视觉不一致性和逻辑矛盾。这一技术不仅能够定位篡改区域,还能进行可解释分析,显著提升数字内容的风险控制能力。
作为蚂蚁数科全球业务的核心技术,这两项能力已在 ZOLOZ 文档识别鉴真产品(RealDoc)中实现了规模化应用,支持119种语言,能够高效处理多语种商务文档、合同和证件,覆盖保险理赔、信贷审核及跨境贸易等多个场景。
来源:
AIbase
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.110389 second(s), 8 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表