财新传媒 财新传媒

阅读:0
听报道

理解这本期刊影响因子飙升背后的原因,有助于我们理解影响因子意味着什么,我们应该如何看待影响因子。 

 

导  读

在现代科学研究领域,影响因子(impact factor,IF)用来反映一本期刊所出论文的受欢迎程度,论文越受欢迎、引用越多,那么期刊的影响因子就越高,在相关学科领域中的地位就水涨船高。“一人得道,鸡犬升天”,发表在高影响期刊的文章及其作者,也常常被认为具有更高的影响力和代表更先进的研究水平,进而获得更大的科研优势。
 

神奇的是,2009年,曾经有一本期刊,因为一篇文章的引用量暴增,一年内影响因子增加了近25倍,在所有期刊中排名第二。这篇文章的作者,就是晶体学领域的著名科学家、德国哥廷根大学教授乔治·谢尔德里克(George M. Sheldrick)。而这篇神奇的论文,则只是关于一款软件发展历史的简介。

 

撰文 | 陈昊鸿

责编 | 陈晓雪

2009年6月18日,汤森路透集团发布了刊有七千多种期刊影响因子的《期刊引用报告》(Journal Citation Reports,简称JCR, 现相关业务已转入科睿唯安公司)。科研人员仍然同往年一样,各自关注自己专业领域期刊的影响因子变化,然而《自然》(Nature)杂志的一篇评论却 “一石激起千重浪”,连大众媒体都被吸引过来。

图1 《自然》评论文章的网页截图

 

一篇文章带来的影响因子 “奇观”

《自然》这篇评论的标题天然就很吸引眼球,“指标靠谱吗?——一篇文章引发的影响因子奇迹”(Metrics:journal’s impact factor skewed by a single paper)。评论指出,国际晶体学联合会(International Union of Crystallography,IUCR)负责的《结晶学报A辑》(Acta Crystallographica Section A)的影响因子,从过去四年都没有超过2.38的低水平一下子猛升到2009年的49.93,翻了近25倍,排名第二(2008年为2.051,排名2218),而同期的《自然》仅仅增加了0.3倍,为34.48。
 

令人吃惊的是,该杂志影响因子如此巨幅的提升,居然来自于2008年1月发表的一篇文章的贡献,其作者正是在晶体学领域声名显赫的乔治•谢尔德里克(George M. Sheldrick)。
 

图2 乔治所发文章的网页截图(右上角给出了当时的总引用次数“78611”)

 

虽然从内容的角度看,乔治的文章 “SHELX简史”(A short history of SHELX)并非石破天惊或影响深远的 “开山之作”,只是SHELX软件发展历史的简介(图2),但是它在同年发表文章中的引用的确 “一骑绝尘”:2008年《结晶学报A辑》发表了72篇文章,到2009年计算影响因子时总共被引用5966次,而乔治这篇文章就达到了5624次,贡献了94.2%的引用数!

长期以来,《结晶学报A辑》一直处于低影响因子的阵营,在专业期刊中的排名都在千名之外,从2001年到2008年,该刊的影响因子处于1.417~2.385之间,其排名更是在1304~2218名之间波动。但到了2009年,凭借乔治的一篇文章,这本期刊直接成了影响因子排名的 “榜眼”,连《自然》和《科学》(Science)都远远落在其后。

“SHELX简史” 为何会有如此惊人的引用?原来,乔治在文章中以及下载该软件的网页上提到:此文可作为本软件的引用文献,要求那些使用软件所得结果或其衍生结果作为内容的论文必须在参考文献中引用这篇文章。

由于计算影响因子考虑的就是文章引用的数量,其结果就是巨大的引用数量直接将《结晶学报A辑》送上了影响因子的神坛,连《自然》在评论中也惊呼 “令人吃惊”、“罕见”。

图3 2009年,乔治·谢尔德里克在美国晶体学协会的一个学术会议上 | 图源:web.mit.edu
 

单晶结构解析软件的 “武林至尊”

那么,SHELX软件在国际上的受欢迎程度究竟如何?事实上,现在只要涉及单晶结构解析,不管是商业的还是免费的学术软件,不管各自的用户界面如何五彩缤纷,其背后都站着SHELX软件的身影。严格来说,SHELX软件是一个系统或者组合,涵盖分别用于数据处理、结构求解、结构精修和结果文件编辑等多个软件,其中最有影响力的就是精修结构的SHELXL软件。

在单晶结构解析存在这样的一个有趣现象:求解结构可以不用同属于SHELX软件的SHELXS或SHELXD,但是精修结构的时候往往都要转回SHELXL。而且即便有其他学者或公司自行撰写了相关结构解析软件,但是他们仍然需要提供面向SHELX软件系统的接口,其中提供SHELXL所需输入文件就是一种常见措施。在单晶结构解析软件的江湖中,SHELX软件已经是 “武林至尊” 了。

虽然科研软件如过江之鲫,比如有关晶体结构解析的软件就有上百个,甚至产生了专门的晶体学软件门户网站,但是能达到这种效果的,迄今为止却只有SHELX一个。

其中因缘就藏在 “SHELX简史” 这篇并不太长的文章中。

早在二十世纪初,人们就知道可以利用波长短到与原子间距在同等尺寸水平的X射线衍射来表征晶体结构。但是也正因为X射线的波长太短,没办法像照相机那样利用玻璃透镜进行聚焦,直接得到清晰的被拍照物体的图像,所以X射线衍射可以得到出射X射线光斑的强度,却得不到它们的相角(也称为位相),导致屏幕上的一个个明暗不同的斑点并不是原子结构的图像,而是光波在不同位置的振幅图像。

基于衍射光学,如果知道发生衍射的原子结构,就可以结合入射光方向获得相角,然后再根据不同原子对X光的散射能力计算出这种振幅图像。反过来也是如此,如果已经知道了振幅和相角,就可以结合入射光方向反推出原子结构。显然,X射线衍射图像与待求原子结构之间陷入了一个死循环,这就是有名的 “相角问题”。

一开始,包括布拉格和鲍林在内的科学家采用的是“聪明的大脑”结合“搭建球棍模型”的方式来解决这个问题。目前大学内示范晶体结构的各种球棍模型,在当年可是晶体学家整天都在玩的 “宝贝”:装配一个模型→根据这个结构模型计算振幅图像→与实验图像做对比→调整模型,如此循环往复,直到所得模型计算的振幅图像与实验图像满足合理的拟合误差。沃森和克里克获得诺贝尔奖的DNA双螺旋结构就是这样搞到的,当时鲍林则因为模型搭错了,从而与该荣誉擦肩而过。

这种模式当然不符合科研的需求,因为除了很简单的NaCl等化合物的结构,稍微复杂一点的结构都需要耗费大量的精力和若干 “聪明的大脑”。即便如此,对于复杂的结构,也只能得到结构片段而已,仍以DNA结构为例,当时沃森和克里克并不是得到真正的完整结构,而是给出了骨架,按照现在的说法,只是达到了重原子组成的初始结构的水平。虽然现在回看当年获得诺奖的晶体结构,不少人会觉得很简单,但在当时的技术条件下,真的不简单。

转机出现在统计学和计算机的引入之后。1956年,美国的豪普特曼(H. A. Hauptman)和卡尔勒(J. M. Karle)提出了确定晶体结构的直接法(也称为倒易空间法)。这种方法称为 “直接法” 是取其直接利用衍射实验记录的强度数据,不再需要绞尽脑汁地预先构造晶体结构模型的意思。

“直接法” 的核心思想并不复杂。

首先,用于表征原子结构、待求解的参数个数远小于实验得到的强度数据个数,因此按照求解方程组的理论,这些包括相角在内的参数是可求解的。

其次是对于给定的晶体结构,衍射强度不仅来自单个原子的贡献,还包括多个原子的线性组合贡献,而原子之间相对的位置和分布是固定的(严格来说还要考虑热振动的校正),因此这种线性组合也是固定的,最终体现于特定衍射方向所得的光斑强度会存在关联,如果结合统计概率和柯西不等式,这种关联性就可以被用于从已知的相角来求解未知相角。

基于这两个核心思想,可以先选取少数几个衍射点,随机给定一组相角解,然后利用关联性求解其他未知相角,同时利用这种关联性和统计概率反过来验证初始相角解的正确性——如果不正确,则重新产生一套初始相角,如此循环,直到所得相角满足给定的误差。

然而基于成千上万个单晶衍射数据点,这种方法的计算量十分庞大,幸好电子计算机在20世纪40年代已经出现,随后不断进步,到了70年代,其在价格和数量方面已经可以被学术界接受,将直接法通过软件转为可实施的技术就成了时代的需求。

乔治抓住了这个时代需求,并且随时而变。他在60年代时就使用ICL Titan计算机所用的 Titan Autocode 汇编语言写了一个精修结构的程序,随后紧随IBM个人计算机的兴起,将其转用高级程序语言Fortran重心编写,得到了近5000行Fortran程序代码构成的SHELX-76。
虽然乔治并不是计算机专业人员,而是无机化学专业,但是他却天才般地抓住了计算机软件作为 “常青树” 的基本条件:代码高效并且自行独立。事实上,即便在当前,软件做到代码高效或许并不少见,但是做到自行独立,很容易移植到其他计算机就很不容易了——因为大多数程序员编写软件的时候都喜欢调用各种已有的库文件甚至模块,表面上是承继了已经写好的高效代码,实际上已经将自己的软件绑死在这些库文件和模块的 “战车” 上。这就是 “自上而下” 和 “自下而上” 两种软件编写风格在软件寿命上的差异。

乔治本人也提到,“我宁愿不用这些程序库,(而是)自己撰写SHELX的每一行代码。这么多年来,程序相当强的可移植性就是因为没有随着某个数值计算库而受限于特定的时代。此外(按照现代标准),撰写这些程序时我非常注意执行速度和内存调用的优化,甚至达到 “过犹不及” 的地步,导致的一个 ‘负面效应’ 是执行程序时再利用编译器的优化功能几乎不会进一步得到多少改进。” 他还颇为自豪地说,“几乎没有和SHELX同样古老的软件在今天仍广泛应用,可能原因之一是SHELX使用一个非常简单的FORTRAN标准子集,甚至更后面的对SHELX系统的扩展也是如此,这就使得移植这些程序到新的电脑硬件中显得轻而易举。”

SHELX软件的另一个优势是用户友好或者易用性。在20世纪90年代之前,主流操作系统是MS-DOS,计算机与用户之间的交互是通过指令行的方式实现的。晶体结构解析要运行的指令并不少,采用这种逐行敲入指令的方式,如果某个指令错误,就要从头再来,费时费力。为了方便用户,乔治采用了 “输入文件+可执行程序” 的模式。一大堆指令可以事先写在一个输入文件上,随后只需要敲入一行指令,比如 “SHELXL 文件名” 就可以了。如果出错或需做增补,修改该文件并重新执行 “SHELXL 文件名” 即可。这种模式后来成了VASP与CASTEP等现有量化计算软件的标配。现在习惯Windows操作系统的用户也可以使用shelXle、Olex2、Oscail和WinGX等软件,通过图形用户界面(GUI)来调用SHELX——软件好,各种外挂或支持自然少不了。

在SHELX软件的发展中,乔治清楚地看到了直接法等求解结构方法的不足,将发展软件的重点转到精修功能上来。这是因为虽然理论上直接法可以得到晶体结构,但是实际上会受限于数据的质量、数据收集的完整程度、背景噪音以及结构未知时处理数据的误差等因素的影响,而且还有数学处理的误差影响,比如理论上要求无限项的级数加和在实际计算中只能取有限项的级数加和,因此求解结构只能得到一个初始的结构模型。这个模型与真实结构模型相比,存在欠缺、移位甚至错误的可能性,这些都需要在后继对结构的调整过程中进行纠正。精修就是基于初始结构,利用各种手段对该结构不断修正,最终尽可能逼近衍射数据所反映的真实结构的过程。

随着有机化学的发展,有机小分子结构解析日益得到重视,其碳、氢、氧和氮等轻原子的大幅度振动对衍射数据分辨率和结构解析水平提出了更高的要求。乔治对此主要作出了两个创新,一个是将循环差值傅立叶用于确定-OH和-CH3等基团中氢原子的最佳位置,另一个是使用了 “相似间距” 限制和各向异性位移参数限制,有效处理了有机分子(包括蛋白质等大分子晶体含有的溶剂小分子)的无序行为。

 

受欢迎的秘密:不断创新与开放

20世纪90年代后,分子生物学获得了蓬勃发展。世界各地纷纷兴建的同步辐射光源收集了大量的有关蛋白质等大分子的衍射数据,它们的结构解析成了需要解决的关键问题。虽然期间出现了不少针对大分子结构解析的软件,但是乔治的SHELXL也被实践证明可用于大分子的精修。

而且,乔治的创新活力依旧旺盛,除了针对大分子晶体会包含溶剂等特点加入了溶剂模型和独立的标准不确定度的最小二乘估计等新技术,而且还基于自身结构解析的经验注意到了缺面的和非缺面孪晶的问题——当时大分子晶体学家在求解结构时没有注意到这两种孪晶的存在,仍然按照不存在孪晶的假设求解结构,导致已经收入蛋白质数据库(PDB)的部分结构存在严重的错误。乔治在软件中给出了处理与精修孪晶的方法,并且还设计了一些加速精修收敛的措施。

后来,乔治还另外编写了一些用于SHELXL的辅助软件,主要有提供输入文件和初始结构的SHELXPRO;可以自动寻找水分子(蛋白质晶体中常见的溶剂分子)的SHELXWAT以及可以处理多种构象共存的SIOCS。这些辅助软件不并入SHELXL中是一种明智的行为:一方面避免软件过于庞大而引起的各种调试和运行问题;另一方面可以方便用户处理不同的情形,降低对计算机硬件的消耗,比如不需要考虑构象的时候就没必要调用SIOCS。

除了精修结构的软件,乔治也重视求解结构软件的发展。除了在主要面向无机和有机小分子晶体的SHELXS的基础上推出同样基于直接法,面向大分子的SHELXD,而且还提出了随机忽略法和帕特逊概率取样法等新算法,并且进一步写了SHELXC和SHELXE两个软件与SHELXD结合使用。SHELXC可用于数据预处理、数据质量评估和输入文件准备;而SHELXE可利用SHELXD所得的结构进一步基于实验衍射数据,通过差值电子密度图循环搜索缺失结构,获得更完善的、待精修的初始结构。这种递进调用的编程策略不但可以适应不同的结构问题,而且奠定了高通量求解相角问题的基础,适应当前热门的高通量流水线操作的发展潮流。

软件的高普及和广受欢迎的程度固然需要软件自身具有先进的性能,但是也离不开软件作者开放和共享的精神。对于乔治而言,还多了一个 “负责” 的优点。他在《SHELX简史》中就提到,从写完软件到公开分发时(SHELX-76),他已经调试了十年以上!真正的 “十年磨一剑”!而且伴随软件发表的手册也同大多数软件仅是参数介绍的手册不同;乔治的软件手册其实就是一本教材,从软件安装到软件使用都有涉及,而且在介绍参数时还给出了自己的经验,以至于国内不少学术团队将软件手册翻译为中文,并作为团队内的 “传家宝”,不准外传。

乔治的学生,就职于美国麻省理工学院(MIT)化学系的彼得·米勒(Peter·Müller)撰写了一本介绍导师软件的书籍《晶体结构精修——晶体学者的SHELXL软件指南》(Crystal Structure Refinement——A Crystallographer’s Guide to SHELXL)。他在书中也提到相当多的晶体结构解析是师傅与徒弟之间 “口耳相传”,但乔治这个师傅没有门派之见,反而支持徒弟将这些经验传播出去,还亲自在他的书中写了一篇简介,甚至在文后感谢彼得做了多年来他想做而没做的事情。

事实上,开放共享的精神在乔治开始工作生涯时就已经显现了。同大多数毕业的博士一样,乔治一开始也是想延续博士研究方向,成为一个发现新化合物,建立新机制新理论的无机化学家。但是1978年进入德国哥廷根大学后,当他注意到同事们在这方面相比更占优势,却苦于不懂编程,又迫切需要表征他们自己合成的所有化合物时,就自行转到晶体结构解析工具的实现和使用领域,而且一做就是一辈子。当然,或许不害怕 “教会徒弟,饿死师傅” 也在于他始终与时俱进,不断学习又不断创新,从而具有强大的自信吧。

 

非诺奖得主,但影响力毫不逊色

需要注意的是,虽然乔治的文章引用已经超过30万,远高于诺贝尔奖获得者的文章引用量,但是他还是难以获得诺贝尔奖金。这是因为他的工作是 “实现”,而不是从 “0” 到 “1” 的原创——即使将他所提的新算法也看成是从 “0” 到 “1”,然而对诺贝尔奖而言,这种 “原创” 是基于实现某理论的原创,因此其重要程度要比该理论低一级。比如他提出的算法是用来实现更高效的、求解结构的直接法,那么获奖的只能是直接法的提出者——事实也是如此,豪普特曼和卡尔勒后来获得了1985年的诺贝尔化学奖,其贡献就是提出了直接法。

从这个意义上看,乔治更是晶体王国的 “大国工匠”——擅长于在别人提出解析理论的前提下,实现结构解析工具的建立和使用。

当然,虽然是 “工匠”,但是乔治能享受的 “人间烟火” 并没有比别人逊色。

首先,凭借在结构解析工具和技能方面的成就,他成为哥廷根大学的教授,并且在70岁时获得了下萨克森州教授的荣誉称号,从而以名誉教授的身份继续在哥廷根大学任教(相当于终身教职或者类似国内院士那样,有退休自主权)。

其次是他将软件分为两种版本:免费的学术版和收费的商业版,两者的差别就在于输入与输出界面和工具的差别。学术版其实就是原版,而商业版则在乔治的参与下,公司雇人编写了可以通过鼠标、菜单和按钮操作的现代视窗型界面,方便用户建立输入文件,浏览和修改所得中间结构,调用学术版同样提供的程序,绘制用于报告和科研论文的结构以及准备各种信息报表等,另外还包括了控制设备和处理原始数据的软件(XPREP软件)。

另外,乔治还积极同晶体学会或商业公司合作举办有关晶体结构解析的培训班,形成 “软件教学——扩大软件应用——反哺软件发展” 的良性循环。因此乔治的 “工匠生涯” 本质上就是技术如何让个体实现 “名利双收” 的真实写照和经典模板。

虽然乔治现在已是耄耋之年,但是SHELX软件系统在他的开放、共享和负责精神的推动下仍然在蓬勃发展,目前主要是针对大分子晶体结构的解析不断进行改进,比如考虑缩氨酸的建模、引入最大似然法精修以及建立更准确的溶剂模型等,不断推陈出新,搭载着 “工匠情怀” 一路向前!

最后,由于影响因子计算的是前两年内发表文章的数目及其被引用的次数,因此乔治2008年的那篇文章除了为《结晶学报A辑》贡献了2009年的超高影响因子数值,在2010年同样也有类似的贡献,将其影响因子提高到54.33。不过,此后该期刊的影响立马跌回了原先的个位数水平(2021年为2.33)。影响因子可以有如此巨变,很难想象“唯影响因子”是明智之举。

 

作者简介

陈昊鸿,中国科学院上海硅酸盐研究所副研究员,专注透明光功能材料的结构表征、计算模拟与性能研究。
 

参考文献:

1. https://www.nature.com/articles/466179b#content,Metrics: journal's impact factor skewed by a single paper

2. http://shelx.uni-goettingen.de/george.php


 

话题:



0

推荐

知识分子

知识分子

3259篇文章 1次访问 9小时前更新

由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,现任主编为周忠和、毛淑德、夏志宏。知识分子致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。

文章