红杉的 xbench 放了份测评，让 AI 去药企当”科研实习生”，从头到尾做一遍真实的数据分析。

结果很炸：最强的 AI 拿了 73 分，把人类实习生 40 到 50 分的平均线甩在了后面。

这两天的解读，标题全是”AI 超过人类科学家”。

我也认真读了。然后我想说一句可能不太讨喜的话——

那个 73 分，根本不是这篇测评的重点。

真正值得炸的，是它换了一种方式去测 AI。这件事比分数大得多。

🧪 过去所有的 AI 评测，都在干同一件事：判答案对不对

这是我读完最大的感受。

回想一下，过去一年我们见过的 benchmark，几乎全是一个套路：给题、给标准答案、判对错。

考的是”模型知不知道”——知不知道这个基因、这篇论文、这个方法、这个公式。本质是一场超大规模的标准化考试。

模型在这种考试里越来越强，强到我们都有点麻木了。

但这里藏着一个所有人都默认、却很少有人点破的前提：

我们一直假设”答对了”就等于”会了”。

在选择题里，这个假设大致成立。

可一旦进了真实的科研现场，这个假设会要命。

🧬 因为在科研里，过程错了、结论对了，是最危险的情况

xbench 这次做的事，是把 AI 扔进药企的真实分析场景。

给你一组免疫治疗患者的单细胞测序数据和临床信息，让你判断某个 biomarker 值不值得进下一轮实验验证。

听起来不复杂。但你真要做，得走完一整条链：数据清洗、样本筛选、选统计方法、做多重检验校正、最后给出生物学解释。

每一步都能出错。而且——每一步错了，最后都可能照样蒙出一个看起来对的结论。

有句来自药企一线科学家的话，我觉得是整篇测评的灵魂，大意是：

在生物学里，一个看起来完全正确的结论，可能建立在一条完全错误的分析链上。而等你发现的时候，药已经做废了。

这就是为什么 xbench 不满足于判答案。

它做的是 process-level evaluation——过程级评测：让 AI 给出完整的分析轨迹，读了什么数据、做了哪些清洗、为什么选这个方法、统计结果怎么样、怎么解释。然后裁判从数据处理、方法选择、统计严谨性、生物学解释、科学推理、来源可靠性六个维度逐项打分。

它问的不再是”你答对了吗”，而是”你这条路，走得站不站得住”。

💥 卧槽，关键来了——“跑通了”和”做对了”，是两件完全不同的事

这才是这篇测评真正捅破的窗户纸。

我们这些天天用 AI 的人，太容易被”它跑出结果了”骗到。

代码跑通了、图表出来了、结论给了、还说得头头是道——你就信了。

但科研不认这套。跑通，只证明它没报错；做对，才证明它没蒙你。

这中间隔着一整条看不见的分析链。链上每一环的判断是否合理，决定了那个漂亮结论到底是真知灼见，还是一场精致的胡说八道。

过去的 benchmark 测的是终点。BiomniBench 测的是整条路。

这是 AI 从”做题家”走向”真能干活”必须迈过的一道坎。你不能让一个连自己怎么得出结论都说不清的东西，去决定一款药要不要做下去。

它有个名字其实很贴切——可验证、可追溯。不是结论可信，是产生结论的每一步都摆得出来、查得到、站得住。

📊 测了过程之后，三个有意思的发现

把评测维度升级到”过程”之后，跑出来的结果，比单纯一个分数有意思多了。

第一，AI 会”偏科”，而且偏得很说明问题。

边界清晰、靠算的任务，它拿手：细胞组成分析 91 分，突变分析 88 分。

但需要判断统计方法、理解生物学上下文、做深度科学推理的任务，它就明显拉胯：GWAS-eQTL 分析只有 45 分。

翻译一下：AI 很会”算”，但对结果的生物学意义、对科学的深层理解，还差得远。 它能把流程跑得漂亮，但说不清”这个结果在生物学上到底意味着什么”。

第二，“外面那层壳”，跟模型本身一样重要。

同一个 GPT-5.4，装在一个智能体框架里是 68.69 分，换一个框架只剩 55.19 分。模型一个字没改，光是 Agent Harness 不一样，差了 13.5 分。

这说明能不能做对研究，一半看模型，一半看你把它装进了一套什么样的工作流里。

第三，最强的是 Claude Code + Opus 4.7，73.34 分。 前三名里两个是 Claude Code 的配置——能端到端走完一条真实分析链，吃的就是 Agent 工程的硬功夫，不只是模型聪明。

🌊 往大了说：评测范式，正在从”考试”变成”上岗”

退一步看，这篇测评标志着一个更大的转变。

过去的 benchmark 像一场考试：给题、给答案、判对错。它能告诉你这个模型”知道多少”。

而 Auto Research 时代需要的，是一场上岗评测：给数据、给目标，看你的过程、看你的结果、看你的风险。它要回答的是这个模型”敢不敢用”。

这两件事差得很远。

一个知道很多的模型，不一定是一个你敢把真实决策交给它的模型。

所以问题正在从”这个模型准不准”，悄悄变成——

“这条分析链，科学家敢不敢信？”

而信任，从来不是靠一个漂亮的最终答案建立的。是靠过程被看见、推理被验证、每一环都可追溯，一点点攒出来的。

xbench 这份测评真正的价值，不在于给 AI Scientist 排了个名次。它在于第一次认真地问：当 AI 想端到端地自动化整个科研流程，我们到底该怎么判断——它是在真的做研究，还是只是在熟练地表演做研究。

xbench 在文章最后问：如果是这样一位 AI 实习生，你会让它转正吗？

我的答案是：能不能转正，不看它这次答得多漂亮。

看的是——下一次它给你一个你看不懂的结论时，你敢不敢信它走过的那条路。

人类信任彼此，从来不是因为对方永远正确，而是因为对方愿意把”我是怎么想的”摊开给你看。

我们对 AI 的信任，大概也得从这里开始。

你上一次完全相信 AI 给的结论，是因为它说得对，还是因为你懒得去查它怎么得出来的？

#AIScientist #AI 做科研 #大模型评测 #过程级评测 #AgentHarness #AI 能力边界 #xbench #生物医药 AI #产品经理 #AI 前沿

AI 当药企实习生考了 73 分，但那个分数根本不是重点

🧪 过去所有的 AI 评测，都在干同一件事：判答案对不对

🧬 因为在科研里，过程错了、结论对了，是最危险的情况

💥 卧槽，关键来了——“跑通了”和”做对了”，是两件完全不同的事

📊 测了过程之后，三个有意思的发现

🌊 往大了说：评测范式，正在从”考试”变成”上岗”

准备好开始您的 AI 之旅了吗？