大模型云服务产品已上线!一键接入DeepSeek-V4、Kimi-K2.6等海量模型,按量计费,稳定易用, 立即体验
共绩算力

AI 当药企实习生考了 73 分,但那个分数根本不是重点

2026年5月25日
"AI 当药企实习生考了 73 分,但那个分数根本不是重点"
Shiyuh
Shiyuh
技术传道者/AI 应用落地

红杉的 xbench 放了份测评,让 AI 去药企当”科研实习生”,从头到尾做一遍真实的数据分析。

结果很炸:最强的 AI 拿了 73 分,把人类实习生 40 到 50 分的平均线甩在了后面。

这两天的解读,标题全是”AI 超过人类科学家”。

我也认真读了。然后我想说一句可能不太讨喜的话——

那个 73 分,根本不是这篇测评的重点。

真正值得炸的,是它换了一种方式去测 AI。这件事比分数大得多。


🧪 过去所有的 AI 评测,都在干同一件事:判答案对不对

这是我读完最大的感受。

回想一下,过去一年我们见过的 benchmark,几乎全是一个套路:给题、给标准答案、判对错。

考的是”模型知不知道”——知不知道这个基因、这篇论文、这个方法、这个公式。本质是一场超大规模的标准化考试。

模型在这种考试里越来越强,强到我们都有点麻木了。

但这里藏着一个所有人都默认、却很少有人点破的前提:

我们一直假设”答对了”就等于”会了”。

在选择题里,这个假设大致成立。

可一旦进了真实的科研现场,这个假设会要命。


🧬 因为在科研里,过程错了、结论对了,是最危险的情况

xbench 这次做的事,是把 AI 扔进药企的真实分析场景。

给你一组免疫治疗患者的单细胞测序数据和临床信息,让你判断某个 biomarker 值不值得进下一轮实验验证。

听起来不复杂。但你真要做,得走完一整条链:数据清洗、样本筛选、选统计方法、做多重检验校正、最后给出生物学解释。

每一步都能出错。而且——每一步错了,最后都可能照样蒙出一个看起来对的结论。

有句来自药企一线科学家的话,我觉得是整篇测评的灵魂,大意是:

在生物学里,一个看起来完全正确的结论,可能建立在一条完全错误的分析链上。而等你发现的时候,药已经做废了。

这就是为什么 xbench 不满足于判答案。

它做的是 process-level evaluation——过程级评测:让 AI 给出完整的分析轨迹,读了什么数据、做了哪些清洗、为什么选这个方法、统计结果怎么样、怎么解释。然后裁判从数据处理、方法选择、统计严谨性、生物学解释、科学推理、来源可靠性六个维度逐项打分。

它问的不再是”你答对了吗”,而是”你这条路,走得站不站得住”。


💥 卧槽,关键来了——“跑通了”和”做对了”,是两件完全不同的事

这才是这篇测评真正捅破的窗户纸。

我们这些天天用 AI 的人,太容易被”它跑出结果了”骗到。

代码跑通了、图表出来了、结论给了、还说得头头是道——你就信了。

但科研不认这套。跑通,只证明它没报错;做对,才证明它没蒙你。

这中间隔着一整条看不见的分析链。链上每一环的判断是否合理,决定了那个漂亮结论到底是真知灼见,还是一场精致的胡说八道。

过去的 benchmark 测的是终点。BiomniBench 测的是整条路。

这是 AI 从”做题家”走向”真能干活”必须迈过的一道坎。你不能让一个连自己怎么得出结论都说不清的东西,去决定一款药要不要做下去。

它有个名字其实很贴切——可验证、可追溯。不是结论可信,是产生结论的每一步都摆得出来、查得到、站得住。


📊 测了过程之后,三个有意思的发现

把评测维度升级到”过程”之后,跑出来的结果,比单纯一个分数有意思多了。

第一,AI 会”偏科”,而且偏得很说明问题。

边界清晰、靠算的任务,它拿手:细胞组成分析 91 分,突变分析 88 分。

但需要判断统计方法、理解生物学上下文、做深度科学推理的任务,它就明显拉胯:GWAS-eQTL 分析只有 45 分。

翻译一下:AI 很会”算”,但对结果的生物学意义、对科学的深层理解,还差得远。 它能把流程跑得漂亮,但说不清”这个结果在生物学上到底意味着什么”。

第二,“外面那层壳”,跟模型本身一样重要。

同一个 GPT-5.4,装在一个智能体框架里是 68.69 分,换一个框架只剩 55.19 分。模型一个字没改,光是 Agent Harness 不一样,差了 13.5 分。

这说明能不能做对研究,一半看模型,一半看你把它装进了一套什么样的工作流里。

第三,最强的是 Claude Code + Opus 4.7,73.34 分。 前三名里两个是 Claude Code 的配置——能端到端走完一条真实分析链,吃的就是 Agent 工程的硬功夫,不只是模型聪明。


🌊 往大了说:评测范式,正在从”考试”变成”上岗”

退一步看,这篇测评标志着一个更大的转变。

过去的 benchmark 像一场考试:给题、给答案、判对错。它能告诉你这个模型”知道多少”。

而 Auto Research 时代需要的,是一场上岗评测:给数据、给目标,看你的过程、看你的结果、看你的风险。它要回答的是这个模型”敢不敢用”。

这两件事差得很远。

一个知道很多的模型,不一定是一个你敢把真实决策交给它的模型。

所以问题正在从”这个模型准不准”,悄悄变成——

“这条分析链,科学家敢不敢信?”

而信任,从来不是靠一个漂亮的最终答案建立的。是靠过程被看见、推理被验证、每一环都可追溯,一点点攒出来的。

xbench 这份测评真正的价值,不在于给 AI Scientist 排了个名次。它在于第一次认真地问:当 AI 想端到端地自动化整个科研流程,我们到底该怎么判断——它是在真的做研究,还是只是在熟练地表演做研究。


xbench 在文章最后问:如果是这样一位 AI 实习生,你会让它转正吗?

我的答案是:能不能转正,不看它这次答得多漂亮。

看的是——下一次它给你一个你看不懂的结论时,你敢不敢信它走过的那条路。

人类信任彼此,从来不是因为对方永远正确,而是因为对方愿意把”我是怎么想的”摊开给你看。

我们对 AI 的信任,大概也得从这里开始。

你上一次完全相信 AI 给的结论,是因为它说得对,还是因为你懒得去查它怎么得出来的?


#AIScientist #AI 做科研 #大模型评测 #过程级评测 #AgentHarness #AI 能力边界 #xbench #生物医药 AI #产品经理 #AI 前沿

准备好开始您的 AI 之旅了吗?

读完这篇文章,想必您对 AI 技术有了更深的了解。现在就来体验共绩算力,让您的想法快速变成现实。

✓ 已有 10 万 + 开发者在使用

✓ 99.9% 服务可用性

✓ 开箱即用的容器托管