财新传媒 财新传媒

阅读:0
听报道


图源:Unsplash / Ire Photocreative

撰文|梅宝

 ●                  ●                   

论文造假的战场,正在向引文蔓延。

在学术论文中,引用他人的研究成果既是基本的学术规范,也是确保新研究建立在坚实科学基础上的重要支撑。然而,随着越来越多的科研人员习惯借助AI处理日常科研工作——包括梳理文献、润色表达、激发思路乃至探索具体的实验技巧——一个令人尴尬的问题也随之浮现:AI正在凭空捏造根本不存在的参考文献。

过去,在公开发表的论文中引用虚假文献(fabricated references)几乎是难以想象的事,毕竟这直接触碰科研诚信的底线。而如今,随着AI辅助写作日趋普及,论文参考文献列表愈发冗长,虚假引用的识别成本变得越来越高,守住参考文献诚信的底线,会成为一场新的持久战吗?

01

3年间,虚假引用频率上涨超10倍

2026年5月,国际著名医学期刊《柳叶刀》(The Lancet)发表了哥伦比亚大学马克西姆·托帕兹(Maxim Topaz)教授及其同事的一篇通讯文章,发现公开发表的论文中存在虚假引用现象。虽然出现虚假引用的论文占比还比较低,但这一占比在过去三年迅速上升。

谈及这一发现的缘起,托帕兹对专注于报道全球医疗、生物医药的权威STAT提到:这项研究工作源于自己的一次尴尬经历。他原本希望利用AI来协助编辑一篇要投稿给期刊的文章。尽管他检查引用是否准确,期刊编辑还是指出了其中一处错误的引文。“我感到非常尴尬,这种情况差点就发生在我身上。正因如此,我开始思考其他人的处境。”

于是,托帕兹带领团队开发了一套自动化的引用验证系统,对2023年1月至2026年2月期间收录在PubMed Central开放获取数据库中的250万篇生物医学论文进行了地毯式扫描,筛查了1.2亿条引用文献。这些文献中,研究团队只保留了那些带有PubMed 标识符(PMID)的文献,数量约9710万条;再通过文本相似度分析,将引用该参考文献的论文所标注的数据与PubMed、Crossref、OpenAlex 、Google Scholar 等数据库中的实际数据进行比对。如果某个参考文献的标题,在这些数据库里找不到对应的真实出版物,那么该文献即被判定为虚假引用。

最终,在9710万条可查证的引用中,他们发现了4046条虚假引用。这些虚假引用散布在2810篇论文中,其中综述类文章的虚假引用比例比研究类论文高,有2564篇论文包含一至两条虚构的参考文献,246篇论文包含三条及以上虚构的参考文献。

如果从时间维度来看,2023年,每2828篇论文中有一篇存在虚假引用。到2025年,这一比例上升至每458篇论文中有一篇。2026年前7周内,每277篇论文中有一篇。不到三年的时间,存在虚假引用的论文比例,从万分之四飙升至万分之57,上涨了十几倍。

来源:Fabricated citations: an audit across 2·5 million biomedical papers, Maxim Topaz, Nir Roguin, Pallavi Gupta, Zhihong Zhang, Laura-Maria Peltonen, May 9, 2026, Lancet

这个事实提示:虚假引用的增加,或许与AI在科研界的广泛使用有关。2022年底至2023年间,以ChatGPT为代表的大语言模型进入公众视野。论文从投稿到发表通常需要100到200天的周期,2024年中期恰好是第一批借助大语言模型“快速写作”的论文涌入论文数据库的时间。

02

该是谁的锅?

AI只是一门技术,虚假引用不应该由AI来背锅。在《柳叶刀》当期的评论文章中,波士顿大学医学院的霍华德·鲍赫纳(Howard Bauchner)博士认为,虚假引用的责任应该由作者来承担。如果发现某篇论文中存在伪造的参考文献,那么该论文就应该被撤回。在已发表的论文中编造参考文献属于学术不端行为,理应受到相应的严肃处理。

然而,截至研究结果发表时,对于98.4%的涉事论文,出版商没有采取任何行动,既未撤稿,也未更正。虚假引用似乎没有文章数据造假那么严重,但是最终也会流向医学领域,对临床诊疗实践造成潜在危害。“当你作为一名临床医生,根据指南提供临床诊疗时,回头去查看该指南引用的文章,却发现这些引文根本查不到,”托帕兹说,“这非常令人担忧。”

托帕兹建议采取四项措施。首先,出版商应在同行评审开始前将自动化参考文献验证整合到投稿流程中,现有验证工具可供使用,其采用障碍主要在于机构层面而非技术层面。其次,索引服务应为文章记录添加完整性元数据(integrity metadata),以便下游用户评估参考文献的可靠性。第三,当虚假引用影响论文结论时,出版商应对现有出版物进行追溯性审查,并发布更正或撤稿声明。第四,当前主要研究诚信数据库(research integrity databases)中尚未设立“虚假引用”这一独立分类,建立此分类有助于实现系统化的追踪与问责机制。

本次研究分析中,虚假引用在各个期刊中的分布并不均匀,超过三分之一的伪造引用来自两家出版商。托帕兹没有给出具体名称,只是提到它们都是大型开放获取出版商,通过向作者收取高额费用来获取收入。

而对于出版商们的态度,STAT曾联系了几大最久负盛名的科学出版商,其中,《科学》(Science)系列期刊发言人表示,它们使用自动化工具来核查参考文献,目前还未在其期刊发现任何一篇发表的论文存在虚假引用的问题。《新英格兰医学杂志》和《美国医学会杂志》(JAMA)的发言人则称,他们的期刊都有相应工具来验证引用信息,并且所有在其期刊上发表文章的作者都同意文责自负。出版商PLOS的伦理负责人雷内·霍赫(Renee Hoch)则说,“我们希望将自动化核查工具融入到我们的出版工作中,目前正在探索相关解决方案。”

除了制度上的优化措施,或许我们还需要思考,生成式AI的普及将对学术界的论文引用方式带来怎样的改变。

西北大学研究科研诚信与人工智能应用伦理的教授穆罕默德·侯赛尼(Mohammad Hosseini)曾对STAT表示,“过去,人们会先阅读论文,然后再做笔记。在撰写论文时,人们会思考:‘这篇论文或这本书是否与我的研究相关?’这是一个需要深入思考的过程。如今人们只是凭直觉给ChatGPT或其他AI工具输入提示词,然后得到一堆引用文献,随意添加在论文里。这种做法并不健康,这意味着人们对学术文献的阅读越来越表面化,这对研究人员、社会以及我们的学术出版方式都没有好处。”

学术诚信的底线,不应该因为技术手段的进化而降低。正如卡内基梅隆大学计算机科学家尼哈尔·沙阿(Nihar Shah)曾对《自然》杂志提到:“随着自主人工智能科学日益受到重视,我们期望作者在多大程度上真正去研读他们所引用的论文?”研究人员必须对学术文献保持主动的阅读与批判性审视。将知识的溯源完全让渡给人工智能,不仅侵蚀了学术研究的严谨性,更是在动摇科学出版的基石。

参考资料略

话题:



0

推荐

知识分子

知识分子

4239篇文章 2小时前更新

由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,现任主编为周忠和、毛淑德、夏志宏。知识分子致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。

文章