OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

JQR1 · 发表于 2025-5-13 17:05:40

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

您需要登录才可以下载或查看，没有账号？立即注册

×

近日，OpenAI 发布了一款名为 HealthBench 的开源评估框架，旨在测量大型语言模型（LLMs）在真实医疗场景中的表现和安全性。此框架的开发得到了来自60个国家和26个医学专业的262名医生的支持，旨在弥补现有评估标准的不足，特别是在真实应用、专家验证和诊断覆盖方面。

现有的医疗 AI 评估标准通常依赖于狭窄、结构化的形式，如多项选择考试。虽然这些形式在初步评估中有所帮助，但它们无法充分捕捉真实临床交互的复杂性和细微差别。HealthBench 则转向一种更具代表性的评估模式，包含5000个模型与普通用户或医疗专业人士之间的多轮对话。每个对话以用户提问结束，模型的回答则依据医生编写的特定评估标准进行评分。

HealthBench 的评估框架分为七个关键主题，包括紧急转诊、全球健康、健康数据任务、寻求背景、针对性沟通、回答深度以及在不确定情况下的反应。每个主题代表医疗决策和用户互动中的不同挑战。除了标准评估外，OpenAI 还推出了两个变体:

1. HealthBench Consensus:强调34个经过医生验证的标准，旨在反映模型行为的关键方面，如建议紧急护理或寻求更多背景信息。

2. HealthBench Hard:一个更具挑战性的子集，包含1000个经过挑选的对话，旨在考验当前前沿模型的能力。

OpenAI 对多种模型进行了评估，包括 GPT-3.5Turbo、GPT-4o、GPT-4.1和更新的 o3模型。结果显示出显著的进步:GPT-3.5的得分为16%，GPT-4o 为32%，而 o3达到了60%。尤其是较小、成本效益高的 GPT-4.1nano 模型，其表现超越了 GPT-4o，同时将推理成本降低了25倍。

评估结果还显示，模型在不同主题和评估维度上的表现有所差异。紧急转诊和针对性沟通相对较强，而背景寻求和完整性则面临更大的挑战。OpenAI 还将模型输出与医生的回应进行了比较，发现未辅助的医生通常生成的回应得分较低，但能够在处理模型生成草稿时取得进展，特别是早期版本的模型。

HealthBench 还包括评估模型一致性的机制，以确保结果的可靠性。OpenAI 通过超过60，000个注释示例进行的元评估表明，作为默认评估者的 GPT-4.1在大多数主题中表现不逊于个体医生，显示其作为一致评估者的潜力。

项目:https://github.com/openai/simple-evals

来源：AIbase基地

[人工智能] OpenAI 发布 HealthBench：评估大型语言模型在医疗领域表现的新标准

这里或许是互联网从业者的最后一片净土，随客社区期待您的加入！

快速入口

重要文档

关于我们

联系我们