从统计学角度比较新冠口服药: 辉瑞Paxlovid和国产VV116-知识分子的财新博客-财新网

撰文｜尹国圣

责编｜徐卓君

2022年12月28日，新英格兰医学杂志（NEJM）刊登了关于君实生物医药科技有限公司和苏州旺山旺水生物医药有限公司负责研制开发的抗新冠病毒口服药物VV116的临床试验结果[1]。该试验以上海交通大学附属的瑞金医院牵头开展，为一项多中心、单盲（研究者保持盲态）、随机、对照 III 期非劣效性临床试验。

VV116为小分子口服抗SARS-CoV-2病毒药物，其设计结构类似于美国生物制药公司吉利德科学研制的瑞德西韦(Remdesivir)。通过静脉注射治疗新冠的药物Remdesivir于2020 年10月 22日已经获美国药监局（US Food and Drug Administration：FDA）批准。此项VV116临床试验的对照组为FDA批准的口服药Paxlovid，通常被称为新冠“特效药”。

1、什么是非劣效性试验？

三期临床试验可以划分为不同的类型，其中最常见的是优效性和非劣效性试验。优效性和非劣效性是临床试验中两个比较容易混淆的概念。优效性试验的目的在于检测试验药物的疗效是否优于标准药物。非劣效性试验的目的是检测试验药物的疗效是否不劣于标准药物或至多比标准药物相差δ，这里δ > 0 为试验预先设定的非劣效限度。在VV116试验中，如果风险比例的95%置信区间的下界不低于0.8，则可以得出VV116不劣效于Paxlovid的结论。虽然有时试验药物相对于标准药物的疗效稍差，但如果两者的差异是在一个可以接受的范围之内，并且试验药物具备许多其它优点，例如用药途径较方便（以口服或贴片形式用药，而非静脉注射）、毒性较低、副作用较少或者价格相对便宜，那么非劣效性试验会更加适用于这种情况。

与优效性试验相比，非劣效性试验在设计、执行和诠释上难度较大。我们不能简单地认为非劣效性试验是优效性试验的后备方案。在非劣效性试验中，对照组通常是当前的标准药物（VV116对照组为Paxlovid）。如果试验组与对照组之间的疗效差异的95% 置信区间不包含非劣效限度（在VV116试验中，风险比例的95%置信区间的下界不低于0.8），那么我们可以得出试验药物非劣效于标准药物的结论。进一步而言，如果疗效差异的95% 置信区间甚至也不包含原假设预先指定的参数值（风险比例的95%置信区间的下界不低于1），那么我们可以直接确认试验药物的疗效优于标准药物，即得出优效性的结论。根据封闭检验原则（Closed testing principle），我们无需对此时的多重检验作调整[2]。

但是，反之则不成立：如果优效性试验不能够拒绝原假设，即无法得出试验药物优效性的结论，那么我们不可以随后进行药物非劣效性的检验。这是因为若需要检验药物的非劣效性，则我们必须在试验启动之前明确地指定非劣效限度的大小。然而，若试验的整体设计基于药物的优效性检验，则我们不会预先确定该非劣效限度，而它的取值对于非劣效性试验至关重要，并且也不允许在试验数据分析后才确定该限度。

2、如何在优效性和非劣效性试验中选择目标分析人群?

假设检验通常包括一个原假设和一个备择假设。一般而言，原假设是我们希望在数据的支持下拒绝的假设，而备择假设则是和原假设相对立的假设，即我们希望可以得到数据的支持并接受的假设。

在临床试验中，我们应尽量确保试验按照预先设定的方案进行，并将操作失误或偏离方案所带来的影响降为最低。试验的参与者对于研究方案的依从程度取决于诸多因素。例如，病人可能会拒绝随机分配的药物，或者可能由于病情恶化或未达到预期疗效而提前退出试验，也可能因为药物的毒性或副作用过强而退出试验，甚至会从所分配的治疗组转到其它治疗组。

在上述情况下，患者治疗方式的改变与试验方案的偏离会增加统计推断的难度。

在随机临床试验的数据分析中，主要关注三类病人样本的分析对象：意向性（ITT: intent-to-treat）群体，符合方案（PP: per-protocol）群体和实际治疗（AT: as-treated）群体。由于这三种分析针对的人群不同，其相应的结论和统计推断也会有所不同。最常用的ITT 方法囊括了试验中所有的参与者，并以他们在试验最初随机分配所属的治疗组别作为分析基准。PP 方法的原则是将不服从试验安排的病人从分析样本中剔除，从而只纳入完全遵守试验方案的病人。因此，在这样理想的状况下（即参与者完全服从试验方案），PP 方法旨在评估药物之间显示出的最大疗效差异。AT 方法则是介于ITT 与PP 方法之间的折中策略，它是基于病人在试验中实际接受的疗法，而非病人最初分配的疗法[3]。

对于优效性试验，主要的分析对象为意向性分析（ITT）群体。该分析群体基于意向性治疗原则，即对所有经过随机分组的病人，按照他们最初所分配的治疗组进行评价和分析，而不论他们在试验期间是否依从试验的分组及治疗方案。在优效性试验中，ITT分析方法较为保守，它更倾向于接受原假设（即低估两种药物之间的疗效差异）。与ITT分析方法相对的病人群体是符合方案（PP）分析群体，该分析群体只纳入严格遵守试验分组、方案和规定的病人。与ITT 分析方法相比，PP分析方法更倾向于检测出或高估两种药物之间的疗效差异，因此其检验结果相对较为激进，即更倾向于拒绝原假设。

然而，对于非劣效性试验，上述情况恰恰相反。优效性试验的原假设（无疗效差异）在非劣效性试验下成为备择假设，因此ITT分析方法更倾向于支持无疗效差异（即支持备择假设），所以其结论过于激进。与ITT分析方法相比，PP分析方法对于非劣效性试验较为保守，更倾向于接受原假设（即支持劣效性）。

3、总结与讨论

该VV116试验为单盲试验，即研究者不知道患者服用何种药物，但患者知道自己服用的药物，而这会影响统计结果的真实性。

对于有高危因素的轻中度COVID-19成人患者，在主要终点“至持续临床康复时间”方面，基于ITT分析群体的风险比例为1.17，95% 置信区间为 [1.02, 1.36]；基于PP分析群体的风险比例为1.17，95%置信区间为[1.01, 1.35]。ITT和PP分析群体风险比例的95% 置信区间均不包含非劣效限度0.8，也不包含1。因此，试验数据不但支持VV116非劣效于Paxlovid，而且优效于Paxlovid。患者服用 VV116康复时间中位数为4天，Paxlovid康复时间中位数为5天。

VV116试验样本量不大——分配VV116组384人，Paxlovid组387人。两组中均没有参与者进展为重症或死亡。在次要终点分析中，持续症状消退的时间和SARS-CoV-2检测转阴时间在两组之间没有统计显著性差异。到服药第28天，VV116组的不良事件发生率（67.4%）低于Paxlovid组（77.3%），具有统计显著性差异。

然而，轻症患者的康复时间并不是Paxlovid获得FDA批准的主要原因，其最核心的竞争力为大幅降低高危患者的重症（住院）或死亡率（ERIC-HR临床试验结果显示Paxlovid可以降低重症或死亡率达89%[4]）。而且，对于康复时间，Paxlovid并没有显示出与安慰剂的差别。

该试验显示VV116是具有研发前景的抗新冠病毒的口服药物。然而，公众最关心的指标并不是患者的临床康复时间，而是重症或死亡率的降低。这是因为新冠病毒对长者的危害尤其大，很多长者由于担心疫苗的副作用而没有接种疫苗，而且长者通常患有基础病。试验的参与标准可以只限于这类高危人群，主要终点设为重症或死亡率，因为新冠药物最重要的指标是降重症和降死亡[5]。

作者系香港大学统计与精算学系潘燊昌基金教授，系主任。

参考文献：

1.Cao, Z, Gao, W, Bao, H, et al. VV116 versus Nirmatrelvir–Ritonavir for Oral Treatment of Covid-19. The New England Journal of Medicine 2022; December 28, 2022 doi: 10.1056/NEJMoa2208822

2.Yin G. Clinical Trial Design: Bayesian and Frequentist Adaptive Methods: John Wiley & Sons, 2012.

3.尹国圣，石昊伦临床试验设计的统计方法，2018，高等教育出版社.

4.https://

5.Zheng, Q, Ma, P, Wang M, et al. Efficacy and Safety of Paxlovid for COVID-19: A Meta-Analysis. Journal of Infection 2023 (86) 95–97.

话题：