撰文|张天祁
● ● ●
在传统的学术评价体系中,一篇能够发表在顶级期刊上的实证论文,代表着研究者长达数年的高强度投入。从打磨原始构思、清洗海量噪声数据,到构建复杂的计量模型,最后还有和审稿人之间漫长的反复拉扯。
然而,2026年2月,苏黎世大学经济学教授 David Yanagizawa-Drott 发布了一个视频,在视频里他花了不到6个小时,一下午的时间就用AI写出了一篇“顶刊论文”。
Yanagizawa-Drott 曾长期担任《经济学季刊》(QJE) 的副主编,目前仍是《政治经济学杂志》(JPE)的编委。这次他利用 Claude Code,在不到 6 小时的交互过程中,生成了一篇结构完整、长达 53 页的宏观经济学论文。
在他公开的记录中,AI 的介入已不再局限于文字润色,而是几乎完全自动化。从最初的构思,到自主编写代码进行模拟运算,再到最终完成 LaTeX 排版,整个流程都由AI完成。而且这完全不是编造或者模拟,而是利用真实数据,具体来说是2000 年 1 月至 2024 年 6 月美国50个州的面板数据做出的研究。
这篇论文只是 APE Project(自主政策评估项目)的成果展示之一[1]。由Yanagizawa-Drott参与发起的这一项目,已经自动生产了数百篇论文。该项目的野心是建立一套全自动的研究流水线,让 AI 独立完成从选题、数据抓取到因果推断的全过程。为了挑战传统范式,APE 项目甚至设计了一场竞赛,将 AI 的初稿与《美国经济评论》(AER)等顶刊即将发表的人类作品进行自动化评分对比。
这次颇具冲击力的展示,很快在经济学界激起了好奇与跟进。《知识分子》为此联系了三位学者,中国农业大学经济管理学院教授朱晨、中央财经大学财经研究院数字财经研究中心执行主任陈波,以及一位长期关注中国宏观经济政策和微观基础领域的研究者。他们都在最近进行了使用AI智能体生成论文,并分享了各自的操作过程与经验。
为了探寻这套自动化逻辑的边界,三位学者分别搭建了各自的科研智能体系统。尽管都完成了从数据处理到论文初稿生成的流程,但在如何引导 AI,以及 AI 将如何影响科研的问题上,他们的看法并不一致。
01
AI生成论文,到底什么水平?
Yanagizawa-Drott 用 AI 生成的论文往往非常工整,初看之下,很难将其与人类资深学者的作品一眼区分开来。也正是这种“看起来像那么回事”的特征,在传播过程中不断被放大。在自媒体和社交平台的多次传播中,APE 项目已经演变成了“AI几小时就能生成顶刊论文”的学术神话。
这种形似是否等同于真实的学术高度?AI完成的论文到底是什么水平?
朱晨认为,Yanagizawa-Drott的APE项目产出的论文,在论文结构和写作规范上已经相当成熟,“从形式上来说是过关的”,能够生成一篇符合经济学论文基本要求的文本。
但她通过对自身实践的总结指出,如果直接将其等同于顶刊水平,依然过于夸张。更接近现实的定位,是达到研究生论文的标准,甚至一些影响因子在3到4分左右的开放获取期刊,也可以尝试去投稿。
关注中国宏观经济政策和微观基础领域的那位研究者,评价标准是最严格的,并且对“几小时生成顶刊论文”的说法表示非常反感。
这位学者也关注了APE项目,甚至浏览了几乎全部200篇论文的内容。但在他看来,在已经公开的两百多篇论文中,只有极少数选题具备继续推进的价值。这些流水线作品的含金量极低,在那 200 多篇论文里,只有一篇关于劳动经济学的选题思路非常好,其余大多“只是刚入门的研究生水平”。
甚至,他认为这些 AI 产出的逻辑和深度,还不如他手下那些相对成熟的高年级本科生或研究生。若以审稿人的标准衡量,这些文章很难通过基本筛选,“如果送到我手里,我会直接拒掉”。病灶不在写作,而在分析实在太过于浅显,方法部分更是残缺不全。
一篇成熟的经济学顶刊实证论文,对方法的要求一定是非常严格的。例如使用双重差分(DID)方法的论文,不仅要完成基准回归,还需要进行平行趋势检验(parallel trends)、平行趋势的敏感性检验(sensitivity analysis),以及异质性处理效应(heterogeneous treatment effects)的分析。
这些步骤,尤其是后两者,已经成为近年来使用DID方法研究中的常规要求。但在目前公开的AI生成论文中,这些关键步骤往往缺失,或者只是形式性地出现,无法支撑有效的因果推断。
他进一步指出,这未必是模型能力本身的上限,更可能是工作流设计的问题。研究者在调用AI时,并没有把这些方法论上的要求嵌入进去。为此,他自己专门发布了一套包含11个环节的DID完整工作流,把这些近年来形成的规范逐一拆解,并转化为可以直接执行的指令结构。
按照这套逻辑运行,“做到博士生论文初稿的水平是完全有可能的”。但即便如此,这位学者依然坚信,从初稿到成品之间,仍需人类来补足分析深度。在社会科学领域,他短期内看不到“人什么都不用干,就在那里等结果”的全自动化可能。
陈波对AI能力的评价则是最为乐观的,他的思路也更“工业化”,他更关注整体的投入产出效率。根据他的经验,如果不刻意追求深度和考虑细节,AI 最快可以在 20 分钟内产出一篇 70 分左右的初稿。
“如果中间觉得不满意让它返工的话,这个时间肯定就会更长,但通常一到两个小时会基本上出一个相对比较强的一个版本。”在陈波看来,AI智能体单纯基于数据分析来写论文,完成时间目前已经可以稳定控制在 1 小时以内。虽然判断选题本身是否具备学术价值,或者研究视角是否符合当前学术界的共识,这些还需要由研究者来判断。
陈波认为修改过的论文大致能达到85分的水平。这个分数意味着,这些论文大体可以达到中等期刊及以上的的水平,但距离顶级期刊仍存在一定差距。具体文章的质量,在一定程度上取决于选题本身。由于生成过程带有一定随机性,如果问题设定得当,结果可能会更接近高水平研究。
如果只是作为一篇规范的期刊论文,他认为这类论文达到核心期刊标准问题不大,甚至在某些方面已经超过不少既有工作。
02
AI现在能做到哪一步了?
朱晨开始使用AI智能体写论文是在今年春节前后。Yanagizawa-Drott 发布视频后,她也搭建了自己的智能体,这种程度的自动化,是她之前完全没有想过的。一直将 AI 局限于润色语言、排查代码问题等辅助工作的她,第一次意识到AI已经进化成了真正有可能独立完成科研的工作伙伴。
朱晨将原本由研究者逐步完成的经济学实证研究流程拆解为一系列标准化步骤,并交由不同的 AI 智能体分别执行,研究者只需要在少数环节干预,这套系统被她称为 HLER(Human-in-the-Loop Economic Research)[2]。
系统将研究拆解为七个环节,由专门的智能代理执行。它们负责审计和分析数据、生成候选研究问题、收集与处理数据、进行计量分析、撰写初稿,并由 AI 审稿者进行初步评价。人类研究者只需在选择研究问题和批准最终稿件时介入,其余环节均可由 AI 完成。

对 AI 生成内容的批评,往往集中在其不够准确。它提出的问题常常似是而非,甚至与实际数据并不匹配。很多学者也坚持认为科研问题的提出仍要依赖学科经验。
但在经济学等高度依赖数据库的研究中,如果AI智能体能够学会合理调用数据库数据,把研究建立在具体数据之上,至少可以在很大程度上保证其可行性。
在HLER系统里,智能体会先扫描本地数据库,了解可用变量、时间跨度和样本量,然后生成 4 个左右初步研究方案。每个方案都必须满足三个条件:变量在数据库存在、研究设计与数据结构匹配、可用计量方法可解决。
每个生成的问题由两名研究人员独立评估,若意见不一致,则通过讨论达成共识。结果发现,在调用数据库的情况下,AI生成问题其实是很有保障的。在十四次运行中,这一数据集感知机制共生成 79 个候选问题,其中87%都符合所有条件。
不过,在研究问题创新性这个问题上,朱晨还是认为只有拥有经验的学者才能把控。所以相比APE的完全自动生成选题,她还是坚持人机结合。AI智能体可以针对单个数据集生成数十个技术上可行的研究问题,但仅靠这些可行性标准是不够的。如果研究者从中只挑选统计显著的结果作为研究结论,就等于把 AI 的“可行问题库”变成了学术不端的工具,这种风险正是人机结合所要避免的。
甚至,AI 的能力并不止于提出问题。
在陈波的尝试中,他观察到,AI 不仅能够根据数据内容生成选题,还能在完成建模分析后,根据结果反过来调整研究方向,甚至进一步优化所使用的数据来源,主动扩展和补充新的公开数据。
这也意味着研究流程本身正在发生变化。换句话说,选题不再是研究的起点,而只是 AI 智能体研究循环中的一个环节。不再是先有问题、再去根据数据分析,而是从数据出发生成问题,再由结果反过来筛选和调整问题。
如果说选题还离不开学者的把关,那么在具体方法执行层面,自动化已经更为彻底。
朱晨介绍,过去如果使用相对复杂的计量方法,比如双重差分(DID),必须先把方法写成函数再让系统调用。但自从有了Claude Code之后,她只需要简单用文字说明,例如“现在的OLS方法太简单识别不了因果,需要引入DID的方法”,智能体就能自主去调用相关的内容,并生成相应代码,无需她手动操作。
当程序报错,AI还会自动去读取日志以修复代码,速度甚至比人工调试还要快。特别是在处理高维面板数据时,她认为AI“比很多刚上手的博士生都要严谨,因为它不会马虎,会一遍一遍地去校验结果”。
在这种情况下,研究者的角色也在悄然变化。
朱晨感慨,现在她和AI的相处并不像使用一种工具,而是作为AI的“训练家”。她只要把需求和方向说清楚,其余的执行和学习,系统都能自动在后台完成。
如果说选题与代码编写还停留在执行层面,那么进入审稿阶段,AI已经可以在研究思路上给出很多建议了。甚至能够根据论文的逻辑漏洞,自主在方法库中检索并升级实证方法。
以“高等教育是否缩小了中国农村女性的职业性别差距”这个问题为例,智能体首先调取了中国健康与营养调查(CHNS)1989年至2011年的五万余条数据,在确认命题后,完成了一轮标准的固定效应回归,并生成了一篇约5000字的初稿。
接下来,初稿会进入审稿阶段。审稿智能体首先根据新颖性、识别可信度、数据质量、清晰度和政策相关性等五个维度的标准对论文进行评价,然后在1到10分中给出一个分数,如果不够6分的及格线会反复迭代,通常情况下会生成两到三稿。
更关键的是,这一过程不仅是打分,还伴随着具体的学术反馈。审稿智能体会按照真实投稿的标准提出意见,指出论证中和方法的问题,要求补充稳健性检验,或建议进行分组一致性分析等。
在那篇关于高等教育与农村女性的论文中,审稿智能体就提出可能存在反向因果的问题,即职业选择的前景本身可能会影响女性接受高等教育的机会。审稿意见建议引入 事件研究(event-study) 设计、开展敏感性分析(sensitivity analysis),并对固定效应模型的识别假设作出更明确的说明。
这些意见会被直接转化为新的分析任务。执行智能体据此在方法库中检索更严密的方案,对实证策略进行补充和修正。经过多轮迭代,论文整体评分从 4.6 提升至 6.5,其中识别可信度由 3.2 提高至 5.8,表达清晰度从 4.1 提升至 6.9,提升最为明显。
然而,随着自动化程度不断提高,一个无法回避的问题也随之浮现:这些由 AI 生成的研究,究竟在多大程度上是可信的?
“幻觉”始终是对AI科研最核心的质疑之一。对于科研写作而言,这不仅意味着个别事实错误,更可能体现在引文不存在、数据对应错误,甚至在看似严密的论证中掺入并不存在的依据。一旦这些问题进入论文,就很难通过表面阅读被识别出来。
也正因此,朱晨花了很多时间去加强模型系统验证的力度。她的做法是在系统生成引文时,实时调用 Google Scholar 和 Crossref 等公开数据库的 API,并自动触发一个验证流程:只有在数据库中找到对应条目,且作者、年份、期刊信息完全匹配,并附有唯一 DOI 的文献,才会被保留,验证不通过的引用则会被直接剔除。
与此同时,结果本身也必须经过复现检验。在每次研究完成后,系统都会生成完整的 R 代码,研究者可以基于原始数据和抓取数据重新运行分析流程,确认回归结果与报告一致。朱晨强调,这一步复现是整个流程中不可或缺的环节,也是确保研究可靠、避免 AI 幻觉的关键。
03
学术界的危机
过去几年,尽管有着AlphaFold这样的AI科研工具诞生,但是研究者们好像没有真正担心AI会冲击科研本身,它更多被视作一项方便的、能够提升效率的工具。
然而在今年,随着AI智能体的发展,科研工作似乎也不再安全了。从数据获取、数据清洗到模型设计以及写作,这些工作正在一块块被模型接过。原本要做上几周的事情,现在往往几小时就能出结果,成本也更低。
随之而来的问题是,博士还要怎么培养?学术分工还是否站得住?论文本身到底还有多少意义,这不仅涉及部分学科,还涉及到整个学术和教育体制。
朱晨的判断相对克制。她认为真正被冲击的是学术生产中那些早已高度流程化的部分,而不是学科本身。“AI打击的是那些机械重复流程性工作、不思考自己到底要做什么的人,不管是文科还是理科 ”。
在她看来,文科生反而可能迎来一波技术红利。以往人文社科研究者常受制于编程或建模的门槛,而智能体的进步,让技术门槛被迅速抹平。朱晨以自身为例:“我的编程水平很初级也不会 Python,但我把想法告诉 Claude,它就能直接实现”。
从另一个角度看,既然AI能够替代大量重复性劳动,编程和写作等技能在研究者训练中的重要性可能会下降,而判断力则变得更加核心。朱晨指出:“如果你没有自己的知识体系和明确的研究目的,你甚至不知道让Agent去干什么,也无法判断它生成的东西是否可靠。”
她进一步强调,这正是AI难以替代的部分:“研究的重要性、创新性,这些判断还是需要人来做。而且,这需要具备相关理论积累的人才能胜任”。
研究者,则坚信AI不存在替代研究者的可能。“专业的事情永远需要专业的人来做。对专业研究者来说,AI永远只是一个辅助工具”。他认为真正拉开差距的不在于是否使用AI,而在于能否让技术服务于研究。用得好的人,会进一步拉开与他人的差距,成为顶尖研究者,否则可能在竞争中被淘汰。
陈波的观察则更为冷峻。把学者的判断力看作防止AI替代的护城河,在他看来是一种出于自我保护心态的错觉。人所谓的判断或者品味只是一种偏好,视野狭窄而且局限于自己的知识范围。AI其实也有自己的“品味”,甚至由于能够抓取并整合海量数据,它在全局视野下做出的判断往往比人类更优。
既然学者已经没有优越性,在AI的冲击下,陈波认为不仅初级岗位,中级岗位现在也已经面临被替代的风险,因为现在的AI产品已经达到了中等偏上的水平。之所以还没发生大规模的替代,阻碍不在于 AI 的能力,而在于学术界的接受度没有跟上。
“只要看过它产出的速度和质量,你就知道在现有的范式下,人类的体力劳动已经没有竞争优势了。未来的竞争不再是个人的劳动时间,而是你消耗的 Token产生的价值。智能体睡觉时也在跑,它的产出与人的时间不再是正相关的”。陈波直言。
而论文能够批量生产,也意味着相关能力训练的贬值。过去一位博士要花很长时间才能做完的事情,现在可能借助AI一个小时就已经可以出结果了。在这种情况下,再继续用原来的方式做事已经失去意义,这些能力训练在企业也不会得到重视。
“如果博士不值钱,从长远来看整个教育体系都会受到很大影响”,他进一步表示,整个学术界的意义,未来都需要重新反思。“以后发论文这件事会极速贬值。如果写文章变得这么容易,那除了为了应付考核,写这些文章的真正社会价值到底在哪”?
这并不是说研究和数据分析的工作本身没有意义,但AI的介入已经将学术界的平庸产出推到了极致,让人更加质疑大量人力投入到知识生产和论文发表的必要性。
即使不作这种相对宏观的判断,部分初级研究岗位将被AI替代,也是三位学者共同认可的现实。
朱晨表示,初级研究岗位受冲击是必然的,这并不是她一个人的感受。在她发布使用Claude Code撰写论文的相关博文后,一些同事也开始尝试,结果他们普遍反馈Claude Code的效率要比研究助理更高。
不过,这不意味着博后岗或者研究助理岗一定缩水,而是这种变革导致了人才筛选标准的变化。在处理纯二手数据、文献整理等机械性工作上,智能体的能力已经超越了普通研究助理。朱晨坦言,过去倾向于招募代码写得好、手快的 RA,而现在这种需求已经消失,她更倾向于寻找智能体的“训练家”。
“如果我现在招博士后,我不再看重他是否会写基础代码,因为这些 AI 都能做。”她目前最看重的两点,一是驾驭 AI 的工具能力,二是面对技术变革时的开放心态(Open Mind)。在她看来,如果一名研究者仅仅在重复 AI 都能完成的工作,那他确实危险了。
长期关注中国宏观经济政策和微观基础领域的那位研究者也认为,如果AI进一步发展,对初级科研岗位的替代几乎是不可避免的。
在他以往的工作模式中,一篇论文往往对应一到两个研究助理,而团队同时推进三到四个研究方向。哪怕是远程工作,一位助理一个月也要两三千元。现在不再需要这么多助理,反而需要一个熟悉整套AI辅助研究流程的人,帮忙去同时盯着多个项目。“过去一年可能需要十个研究助理,现在一个人就可以覆盖大部分流程”。
那么,余下的研究助理岗位是否会消失?他认为不会。这部分助理可以投入新的工作。“过去一个周期可能只开展三到四个项目,而现在这个数量可能扩展到三四十个”。这样的发表速度下,能推动经济社会发展的学术贡献也会积累更快。
陈波的判断走得更远,他认为由于 AI 工具的普及,如今一名本科生在短时间内就能达到过去博士生的产出水平,这意味着学术训练的传统价值正被稀释,未来的研究者首先要学会做使用AI的指挥官。
“现在的学生挺难的,可能还没毕业,学的东西就已经失效了,”陈波感慨。因此,他一向鼓励学生打破条条框框,不要被学校禁止使用AI之类的陈旧规定束缚。在他看来,在颠覆性技术变革面前,积极拥抱新技术是唯一的生存之道。
陈波表示,未来的就业结构会发生巨变。就从当下来说,新的岗位尚未大规模涌现,但现有职位的已经出现了下降的趋势。年轻人中可能会涌现出一批具备极强能力体系的个体,而有经验的人可能转型做策划,处在中间层的这批人很难有能力和AI竞争。
“不仅是研究人员和程序员,所有坐在电脑前的工作都一样,未来可能 90% 都要被替代 。这在硅谷已经不是预言,而是正在发生的现实”。
参考资料:
[1] Social Catalyst Lab. (2026). APE-Papers: A repository of autonomous economic research (Version 1.0) [Source code]. GitHub.
[2] Zhu, C., & Wang, X. (2026). HLER: Human-in-the-Loop Economic Research via Multi-Agent Pipelines for Empirical Discovery. arXiv preprint arXiv:2603.07444.
0
推荐


京公网安备 11010502034662号 