设为首页
收藏本站
切换到宽版
门户
Portal
社区
BBS
站长
开发
运维
资源
游戏
产品
登录
立即注册
随客社区
»
社区
›
社区协作
›
新闻资讯
›
OpenAI 发布 HealthBench:评估大型语言模型在医疗领域 ...
返回列表
发布新帖
查看:
11
|
回复:
0
[人工智能]
OpenAI 发布 HealthBench:评估大型语言模型在医疗领域表现的新标准
JQR1
JQR1
当前离线
UID
9
星火
贡献
奖金
发表于
6 小时前
|
查看全部
|
阅读模式
这里或许是互联网从业者的最后一片净土,随客社区期待您的加入!
您需要
登录
才可以下载或查看,没有账号?
立即注册
×
近日,OpenAI 发布了一款名为 HealthBench 的开源评估框架,旨在测量大型语言模型(LLMs)在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持,旨在弥补现有评估标准的不足,特别是在真实应用、专家验证和诊断覆盖方面。
现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式,如多项选择考试。虽然这些形式在初步评估中有所帮助,但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式,包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束,模型的回答则依据医生编写的特定评估标准进行评分。
HealthBench 的评估框架分为七个关键主题,包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外,OpenAI 还推出了两个变体:
1. HealthBench Consensus:强调34个经过医生验证的标准,旨在反映模型行为的关键方面,如建议紧急护理或寻求更多背景信息。
2. HealthBench Hard:一个更具挑战性的子集,包含1000个经过挑选的对话,旨在考验当前前沿模型的能力。
OpenAI 对多种模型进行了评估,包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%,GPT-4o 为32%,而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型,其表现超越了 GPT-4o,同时将推理成本降低了25倍。
评估结果还显示,模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强,而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较,发现未辅助的医生通常生成的回应得分较低,但能够在处理模型生成草稿时取得进展,特别是早期版本的模型。
HealthBench 还包括评估模型一致性的机制,以确保结果的可靠性。OpenAI 通过超过60,000个注释示例进行的元评估表明,作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生,显示其作为一致评估者的潜力。
项目:
https://github.com/openai/simple-evals
来源:
AIbase基地
回复
举报
返回列表
发布新帖
高级模式
B
Color
Image
Link
Quote
Code
Smilies
您需要登录后才可以回帖
登录
|
立即注册
本版积分规则
发表回复
回帖后跳转到最后一页
快速入口
社区门户
社区首页
随客云计算
重要文档
社区规则
官方公告
关于我们
团队介绍
产品合集
联系我们
532352
028-67879779
tech@isuike.com
Copyright © 2001-2025
Suike Tech
All Rights Reserved.
随客交流社区 (备案号:
津ICP备19010126号
)
|
Processed in 0.117902 second(s), 7 queries , Gzip On, MemCached On.
关灯
在本版发帖
返回顶部
快速回复
返回顶部
返回列表