TRILUMINATE 关键试验是一项多中心、随机试验,比较最佳药物治疗与 TriClip 经导管边对边修复 (TEER) 治疗严重三尖瓣反流的情况。该试验以胜率比方法(Win Ratio)评估心血管临床试验中的主要疗效层级复合终点(Hierarchical Composite Endpoint)。在这个试验中,胜率比法比为1.48,表明TEER组的综合疗效显著优于对照组。自其发表在NEJM以来,有更多的人敏锐的发现,胜率比法即将成为心血管疾病器械临床试验的冉冉升起的新星。
这天,Z医生在和器审中心的老师沟通时也遇到了同样的情况,他熟悉以往的传统复合终点,但是胜率比法是什么样的统计方法、如何在前瞻性临床试验中使用胜率比法,以及如何以胜率比法估计样本量还是毫无头绪。于是,Z医生决定咨询一下知名的生物统计师Y老师。
“Y老师,您好,打扰一下,我在《新英格兰》上看到一篇文章《亚洲十大网上博彩》,研究者用了胜率比法作为统计方法,听说这是现在心血管器械临床试验中的热门选择。我对这个方法很感兴趣,但还不太明白它的具体运作方式。您能给我解释一下吗?”——Z医生
”当然可以,这篇文章是非常典型的,最近已经有不少经导管二尖瓣反流介入治疗和瓣膜修复三尖瓣反流临床试验,是借鉴了这篇文章的主要疗效指标的统计方法,我们团队还参与了统计方法的制定和样本量的估算。“——Y老师
”那太好了,我其实之前也了解过,胜率比方法最先是由Finkelstein和Schoenfeld在2012年的文章中提出来的,针对的就是心力衰竭的心血管临床试验。这篇文章就讲了好几种方法,您可以简单讲讲胜率比方法的使用范围和具体方法吗?“——Z医生
”您确实做了很多功课了。胜率比方法确实很适合用于心血管临床试验,心血管疾病是一种慢行病,在达到死亡之前的很长一段时间会发各种复杂的症状,传统的复合终点,只关注第一次发生的事件,比如心力衰竭入院发生于死亡之前,入院时已经算作发生终点事件了,但是临床上可能更为关注的是死亡事件。而采用胜率比法评估复合终点,就会按照临床更关注的情况对指标进行分级。通过优先级的配置提供了一个清晰且易于理解的指标,以评估和比较治疗效果,使临床试验结果更具有实际应用价值和解释性。“——Y老师
”比如TRILUMINATE 关键试验的分级复合重点为术后1年的全因死亡或三尖瓣手术的时间(第1级)、心力衰竭住院(第2级)、(KCCQ) 生活质量评分提高15分以上(第3级)。胜率比方法有匹配法、不匹配法、分层匹配法、广义配对法。TRILUMINATE 关键试验采用的就是不匹配法。较常应用的前两种方法的区别,我列了个表格。“——Y老师
”简单来讲,不匹配方法,首先将复合终点的各个组成部分按临床重要性进行排序。然后直接在整个试验的TEER组和对照组之间进行比较,每个试验组的个体都会与对照组的每个个体进行比较,并记录赢、输或平局的结果。在某个组成部分上,如果TEER组患者在某个结果上胜过对照组患者,则记为一次“胜利”;反之,则记为一次“失利”。如果在所有考虑的结果上两者都没有区别,则记为“平局”。胜率比法是胜利次数与失利次数的比率。下面,我用画图的形式向您展示一下。“——Y老师
”Y老师,您这样画我就知道如何计算了。
可是,我不太理解,全因死亡或再干预、心力衰竭入院好像无论是胜率比法还是Logrank方法,两组都相差很近,区别在于KCCQ评分在胜率比法计算里两组的差异会更大,那这是TRILUMINATE 关键试验通过胜率比比值得到TEER组的综合疗效显著优于对照组结论的成功关键因素吗?“——Z医生
”您真的很敏锐,这确实是胜率比法的优势。通过分级排序,既可以首先考虑如死亡、心力衰竭入院等“硬终点”,从而避免重要严重事件作为二次事件在分析时被忽视。这是传统cox回归无法做到的。同时,引入生活质量或生物标志物变化的“软终点”,增加事件数量可以提高统计效能,减少样本量。在TRILUMINATE 关键试验中, 1 年死亡率或心力衰竭住院率尚没有发现明显的组间差异,同时,结果也显示出,TEER 组三尖瓣反流的减少与生活质量评分的改善相关。“——Y老师
”我好像有点明白了。“——Z医生
“其实早在2021年的瓣膜学术研究联盟临床试验设计原则指导中,就指出,当患者治疗目标并非是单纯生存获益,则临床终点不应该仅限于生存率,更应该关注患者生活质量的提高。”——Y老师
“通过您的讲解,我对不匹配胜率比法的应用、计算方法还有优势有了一定的了解。我还有两个问题想向您请教,一个是置信区间要如何计算呢?另一个是,您刚刚提道的样本量的估算。”——Z医生
“TRILUMINATE 关键试验,采用的方法和2012年Finkelstein和Schoenfeld提出的计算方法是一致的,匹配法的计算方式比较简单,但是不匹配法计算95%CI和P值较为复杂,95%CI需要使用Bootstrap方法,重复从原始数据中随机抽样,并计算每个样本的胜率,然后从这些胜率中确定2.5%和97.5%的百分位数来得到95%CI。这就需要用到统计软件处理了。推荐使用的是:R 包 BuyseTest 版本 1.8.5(R 版本 3.6.2)。”——Y老师
”这真的太详细啦!“——Z医生
“接着是您刚刚问到的样本量的问题,TRILUMINATE 关键试验,主要参考的是2020年发表的指南中推荐的方法。样本量的确定依赖于模拟研究,需要考虑预期的胜率、事件率和效应大小。通过模拟具有联合脆弱性的数据,可以更好地估计患者在多个相关终点上的风险变化,特别是当死亡或者再干预、因心衰入院在临床上相关并可能受到相同底层因素影响时。”——Y老师
“我们还是以文章为例讲解吧。我标红的部分都是重要的参数,在计算样本量时,都需要考虑到。尤其是两组各个指标的预期发生率,需要临床专家和统计专家共同讨论决定。指南给出了相应的R包和程序,但是实际应用时,需要根据研究情况和指标进行调整程序,这在目前的R包中还不能完全做到,需要统计师随时调整代码,或者后续继续改进R包的程序。”——Y老师
”您的讲解太细致了,我需要先消化消化,后期如果计算样本量,再向您请教,谢谢您啦!“——Z医生
参考文献
[1] Pocock S J, Ariti C A, Collier T J, et al. The win ratio: a new approach to the analysis of composite endpoints in clinical trials based on clinical priorities . European heart journal, 2012, 33(2): 176-82.
[2] Redfors B, Gregson J, Crowley A, et al. The win ratio approach for composite endpoints: practical guidance based on previous experience . European heart journal, 2020, 41(46): 4391-9.
[3] Sorajja P, Whisenant B, Hamid N, et al. Transcatheter Repair for Patients with Tricuspid Regurgitation . The New England journal of medicine, 2023, 388(20): 1833-42.
本文作者 于兰兰 北京大学临床研究所 生物统计部