警惕你身边做AI for Science的人-知识分子的财新博客-财新网

撰文｜JinJ1N

来源｜人工智能驱动材料计算

● ● ●

他们手持显卡账单，口称改变人类命运，用一张模型架构图解释一切，用一篇Nature子刊圆所有谎言。

我先声明，我不是反对AI，也不是反对科学。我反对的，是那种特定的人。他们活在一个由benchmarks、影响因子和投资人PPT共同构建的平行宇宙里，把AI4S当成一张万能的免死金牌，插在任何需要解释的地方。

这篇文章写给所有曾经在组会上睡着、在学术会议上出神、或者在听完某个demo之后不知道为何感到空洞的人。你的直觉是对的。

画饼的艺术

他们说的话，你一定听过。

"我们用大模型重新定义了蛋白质折叠的范式。"

"我们的模型在零样本条件下超越了人类专家。"

"我们正在做的事，会在五年内颠覆整个XX领域。"

这些话有一个共同点，没有时间节点，没有可证伪的预测，没有失败案例，只有宏大叙事和精心修饰的图表。他们擅长把一个很窄的任务包装成改变文明进程的使命，把一个在受控数据集上表现尚可的模型描述成通用智能的雏形。

更精妙的是，他们学会了用复杂性和前沿性来抵御一切质疑。

你问：这个模型在真实世界里验证过吗？他回答：你不了解这个领域的挑战性。

你问：误差范围是多少？他回答：这是一个新范式，传统评估标准不适用。

你问：有没有失败的实验？他回答：Science is hard，你懂的。

于是你沉默了，因为你不想显得无知。

⚠ 识别手册第一条： 凡是声称自己的工作无法用传统标准评估的人，请重点观察。科学的本质就是可检验性。拒绝被评估，不是谦逊，是护身符。

数据的幻觉

AI for Science最迷人的武器是图表。一条漂亮的loss曲线，一个颜色鲜艳的attention可视化，一张蛋白质结构的三维渲染。这些东西有一种天然的视觉权威感，让人觉得有这么多数字，肯定是真的。

但很少有人问：

测试集是怎么切分的？

训练数据和测试数据有没有泄漏？

那个超越人类专家的baseline，是哪个人类专家，在什么条件下做的对比？

更隐蔽的问题是，他们的模型解决的是科学问题，还是科学问题的一个极度简化的代理任务？把一个分类任务说成理解了XX的分子机制，把一个回归模型说成发现了XX的规律，这中间有一道巨大的鸿沟，而大多数听众缺乏专业背景来识别这道鸿沟的存在。

他们最怕的问题只有一个：

你的模型预测了什么，然后被实验验证了吗？

生态与激励

不能只怪做这件事的人。整个系统都在激励这种行为。

期刊需要影响因子，影响因子需要新颖性，新颖性最简单的来源是我们第一个把大模型用在了XX问题上。投资机构需要故事，故事需要宏大愿景，宏大愿景不需要被立即验证。学术机构需要排名，排名需要高引用，高引用来自热门赛道的早期入场。

于是每个人都在合理地做着不合理的事。

结果是，大量计算资源、聪明的人才、宝贵的时间，被投入到了在知名数据集上多刷两个点这件事情上。那些真正困难的科学问题，那些没有公开数据集、没有清晰评估标准、需要十年才能知道对不对的问题，反而无人问津，因为它们出不了论文。

他的所有论文都在同一个数据集上验证，且这个数据集由他自己的组发布。

他总在讲未来五年，从未回顾上一个未来五年承诺了什么。

他把合作者的工作归纳进自己的叙事，但从不明确贡献比例。

他的demo永远在最好的条件下运行，失败案例从不出现在PPT里。

他对质疑的标准反应是，这个问题问得很好，但你可能还不太了解这个领域。

我们失去了什么

最大的损失不是那些没有被验证的论文，不是那些烧掉的GPU时间，而是被带跑偏的期待值和被扭曲的科学文化。

当一个领域充满了夸大其词的声音，真正在做严肃工作的人就会被淹没。他们没有华丽的可视化图，没有可以截图发推特的demo，只有严谨但枯燥的实验记录和诚实的误差分析。于是他们拿不到经费，找不到学生，在下一个会议上坐在角落里听别人讲那些华而不实的工作，然后继续默默地做真正重要的事。

当然，AI for Science并非全是泡沫。AlphaFold是真实的突破，它改变了结构生物学的工作方式，有真实的实验验证，有可量化的影响。问题不在于AI用于科学这件事本身，而在于AlphaFold被当成了一张可以无限复制的免费门票，仿佛只要往proposal里加上大模型+XX领域，就自动获得了改变世界的资格。

⚠ 给你一个简单的测试： 问他，你的工作预测了什么，然后被实验证实了？如果他滔滔不绝地讲了五分钟还没有给出一个具体例子，你可以礼貌地看表了。一个真正在解决科学问题的人，哪怕只有一个小小的验证案例，也会如数家珍地告诉你。空洞，才需要宏大来掩盖。

尾声：我们能做什么

不要让对方用复杂性来压制你的常识。科学的核心逻辑，假设、实验、验证，是朴素的，不会因为换了一个神经网络架构就变得不适用。

问清楚对比基线是什么，问清楚失败案例是什么，问清楚如果这个模型是错的，你会怎么知道。这些问题不需要任何专业背景，只需要基本的诚实。

最后说一句公道话，很多做AI for Science的人，并不是有意欺骗。他们只是生活在一个系统性激励了过度乐观主义的环境里，久而久之，连自己也信了。这不是坏人的问题，这是一个文化问题。而文化问题，需要每一个参与者、问问题的人、评审论文的人、分配经费的人、写新闻稿的人共同去纠正。

下次有人给你看一个令人叹为观止的AI for Science的demo，先深吸一口气，然后微笑着问他：

那这个结论，有没有被实验室的人重复出来过？

看他的表情，你就全明白了。

本文所描述的现象为行业普遍现象之批评，并非针对任何具体个人或机构。科学进步需要乐观主义，但也需要诚实。两者并不矛盾。

话题：