财新传媒 财新传媒

阅读:0
听报道

编者按

抑郁症正在向低龄化蔓延,这已是全球共识。但在中国,当我们试图看清这一现象时,却常常陷入迷雾:中国孩子的抑郁检出率,数据为何总是“打架”? 

《知识分子》曾在过往的报道中指出一个令人困惑的现象:不同研究中,中国儿童青少年的抑郁患病率竟从 4% 跨越到了 41%。(见《知识分子》往期推送:在精神科门诊里,孩子们的年纪越来越小)这种巨大的数据鸿沟,连在中国研究自杀问题38年的精神科专家费立鹏都曾直言:“数据的可靠性没那么高。”

问题究竟出在哪里?

这一次,来自南京师范大学与某三甲医院心理门诊的研究团队揭开了一个被忽视的真相:我们可能正在用“错误的尺子”衡量中国的孩子。

研究发现,现有的测量量表宛如“盲人摸象”——没有一个症状出现在所有量表中;也没有任何一个量表测量到了所有的症状。甚至,即便同一个孩子,在这张问卷上被判定为抑郁,换一张问卷可能就是“正常”。我们长期依赖成人的标准、西方的量表,却唯独缺少一把专属于中国青少年的精准“尺子”。

如果连刻度都是模糊的,我们该如何守护下一代的心理健康?这并非杞人忧天,而是基于严谨数据的追问。以下是几位学者的研究发现:

撰文|胡传鹏、汪浩远

责编 | 李珊珊 

 ●                  ●                   ●

抑郁已成为困扰儿童与青少年的主要心理健康问题。全球约90%的青少年生活在发展中国家,而他们的抑郁检出率正在快速上升。最近一次系统回顾和荟萃分析也显示大约五分之一的儿童青少年目前经历抑郁或报告抑郁症状 (Lu et al., 2024)。这些数据,以及其他的心理健康问题的数据一起,使得青少年心理健康,尤其是抑郁问题成为全社会关注的问题。 

解决问题的第一步是科学地评估,也就是:以什么标准判断一个人是否抑郁?这个非常重要的问题,却往往经常被忽视,尤其是在青少年抑郁的语境中。许多大规模调查的结果在朋友圈广泛传播时,却很难找到这些调查中用来判断抑郁的标准是什么。

为了了解这个问题,我们对最近一些大规模调查中使用的抑郁筛查工作进行了探索。我们发现,临床筛查和大型流行病学调查均依赖由被调查者报告的抑郁量表,且不同的调查中使用的问卷可能不尽相同。例如总样本高达19万多的《中国国民心理健康发展报告》蓝皮书采用的方式是《简版流调中心抑郁量表(CESD-9)》(傅小兰, 张侃, 2023);共抽取 23个省、5个自治区、4个直辖市包含了共4万多样本的中国居民心理与行为调查研究采用的方式是《患者健康问卷(PHQ-9)》(荣丽敏 等, 2023)。一个问题浮现了:这些用来测量抑郁的不同“尺子”,它们测量的是同一个东西吗?

为了回答这个问题,我们团队进行了一项系统性的研究,首次在中国文化背景下,全面审视了用于儿童青少年的抑郁量表(见文末的预印本)。结果发现,这些“尺子”之间的差异之大,远超我们最初的预期,不同的抑郁问卷测量的可能不是同一个东西。

01

没有一个症状出现在所有儿童抑郁量表中,也没有任何一个量表测量到了所有的症状 

为了搞清楚当前至少有多少个抑郁量表用于测量儿童青少年的抑郁,我们进行了一次大规模的“学术摸底”工作。

第一步:海选。我们在四项覆盖小学生至大学生心理健康检出率的荟萃分析研究中,提取了441篇涉及到抑郁检出率的学术论文 (陈雨濛 等, 2022; 黄潇潇 等, 2022; 于晓琪 等, 2022; 张亚利 等, 2022, 非常感谢作者们分享了他们的荟萃分析数据!), 从这些论文中找出其用于评估抑郁的工具。在这一步中,我们共找到了33个独特的量表。第二步:筛选。我们筛选每个量表中最权威的版本。例如,当一个量表有多个中文翻译时,优先选用更新的、更准确的、以及信息更完整的中文版本。

最终,我们能够找到27个量表的完整题目,它们是本次研究的对象。这其中不乏一些公众熟知或官方推荐的量表,例如:被最新版《中国抑郁障碍防治指南》推荐使用的《患者健康问卷(PHQ-9)》,这里也包括一些中国学者自主开发的量表。

我们对这27个量表的385个条目进行了精细的“编码”工作,试图找出它们用于评估抑郁的细分标准。如果两个题目测量的是同一个抑郁的症状,则我们将它合并。经过几轮编码与讨论,我们发现这27个量表的385个条目共测量了 84个 彼此不同的症状(见图1)。 

值得的注意的是:没有一个症状出现在所有量表中;也没有任何一个量表测量到了所有的症状。这意味着,每份量表都像在描绘抑郁的不同方面,没有任何一份能囊括全貌, 这些量表放在一起,呈现出了一种盲人摸象的即视感。

图1. 二十七个量表的内容重叠

每行是一个症状,每列是一份量表。一条横线上有多个点,这意味着这个症状出现在多个量表中。红色为年龄特异项,蓝色为文化特异项。可以看到大量“只出现一次”的独特症状。 

然而,比“有什么”更触目惊心的是“没什么”——这些量表之间严重缺乏一致性。 为了定量比较这些量表的重合度,我们计算了它们的重合度指数(Jaccard系数)。结果如图2所示。所有量表之间的平均重合度低至0.19,中位数仅为0.17,且四分位距(IQR)为0.11至0.25(见图3)。这意味着,大部分量表之间的共同之处少得可怜,不同的量表虽然都声称自己测量的是抑郁,但是很有可能一个学生在量表 A 上被评为“抑郁”,在量表 B 上却完全被评为“正常”。从研究角度看,不同抑郁量表并不能互换使用,对抑郁研究的可复制性和普遍性造成了威胁。 

图2. 二十七个抑郁量表条目之间的重合度指数

图3.展示了所有抑郁量表之间重合度(Jaccard指数)的分布。分布呈右偏(众数 = 0.13,中位数 = 0.17,IQR = 0.11–0.25),表明大多数量表之间仅存在较小比例的症状重叠,仅有少量量表组合表现出中度或较高重叠。

02

被忽略的“角落”:文化与年龄的特异性症状 

已经有不少研究表明,抑郁等心理健康问题,其症状可能会受到文化的影响,例如:担忧(worry)在南亚和东南亚中更常见,而想的太多(thinking too much)在东南亚和撒哈拉以南非洲人口中更为常见 (Haroz et al., 2017)。同时,抑郁在不同年龄阶段也可能有巨大的差异。例如,植物性症状(Vegetative symptoms)、食欲变化(appetite change)和体重变化(weight change)、能量丧失(loss of energy)和失眠(insomnia)在青少年重度抑郁症患者中比成人更常见。快感缺乏(Anhedonia)/兴趣丧失(loss of interest)和注意力集中问题(concentration  problems)在成年重度抑郁症患者中更为常见 (Rice et al., 2019)。

那么对于中国儿童青少年的抑郁测量中,有多少症状考虑到了文化与年龄段的特殊性呢?这个结果并不乐观:只有少量中国学者自主研发的量表有少量的文化特异性的症状。同样,只有少量专门为儿童青少年设计的量表才包含 “年龄特异性症状”。在全部27个量表中,仅有8个量表关注了年龄的特点特性,更是只有4个量表,关注到了文化的特性。 

换句话说,我们可能是在“用西方成人尺子量中国孩子”。回到最初那四百多篇关于抑郁检出率的文章,他们明确聚焦于从小学到大学的中国学生群体,但使用频率高的量表却是为成人设计的工具。其中使用最广的(在441项研究中出现了129次),是由美国杜克大学教授William W.K. Zung在1965年开发的《宗氏抑郁自评量表(SDS)》(Zung, 1965),其适用于具有抑郁症状的成年人。排名其次的是由Leonard R. Derogatis于1973年编制的《症状自评量表(SCL-90)》(Derogatis et al., 1973),这一量表适用于精神科或非精神科的成年门诊病人,出现了113次 。

03

假如我们用四个抑郁问卷测量同一批人,会出现什么结果? 

为了检验问卷内容上的差异是否会导致它们在筛检时出现不同的结果,我们进一步分析来自北京某医院近1.25万名7-18岁青少年的数据,这些孩子均完成了四个常用量表:《儿童抑郁障碍自评量表(DSRSC)》;《患者健康问卷(PHQ-9)》; 《抑郁-焦虑-压力自评量表(DASS-21)》;《儿童抑郁量表(CDI)》。 

结果发现检出率之间的差异确实存在:对于同一批孩子,四个量表的抑郁检出率从49.25%到62.43%不等(见图4A)。虽然四个量表均会将一批人识别为抑郁,但同样值得注意的是:每个量表都找到了一批“独特”的抑郁者,例如:有833个孩子仅被DASS-21量表判定为抑郁,而其他量表则认为他们“正常”(见图4B)。这印证了我们担心的问题:同一个人在不同问卷上可能从“抑郁”变成“不抑郁”。

图4. 四个自评量表对同一人群的抑郁检出率。不同颜色的柱子清晰显示,DASS-21的检出率最高,而CDI的检出率最低。3B展示了被不同量表组合识别出的患者分布。最浅色的区域代表仅被一个量表识别出的“独特”患者,面积巨大,尤其是仅被DASS-21识别的人群(833人),说明不同量表捕捉的是不尽相同的群体。

在追溯这些量表的过程中,我们还遇到了一些令人啼笑皆非的“尴尬”瞬间,比如:令人无奈的翻译错误。

在追溯国际常用的《流调中心抑郁量表(CES-D)》时,我们发现,其中描述精神层面的“打不起精神”(I could not get “going”),在某个早期广泛流传的中文版本里,竟被直接翻译成了 “我走路很慢” 。这个错误直到十年后才在新译本中被纠正。让人担忧的是,含有错误翻译的老版本在正确的新版本出现后仍然继续被引用(14次),其次数甚至超过了新版本的引用数,后者只有5次。 

04

下一步该做什么?

作为研究者,这项工作的结果让我们不安。这些不一致的抑郁问卷在提醒我们所有人。对家长和临床工作者而言:请意识到,特定的抑郁问卷可能仅反映了抑郁的一部分内容,不能过度依赖其结论。对于严肃的抑郁诊断,请务必寻求更全面的临床评估。

对研究者和政策制定者而言:当解读基于不同量表得出的大规模数据时,需要意识到其背后可能存在的“测量误差”。对于研究者而言,如何建立一套具备科学性、文化与年龄适应性的评估问卷或者问卷系统,可能是亟待推进的工作(Fried et al., 2022)。

准确地测量是有效干预的前提;如何测量抑郁本身也反映了我们对该问题认识的深度。心理健康问题作为一个复杂的问题,目前仍然有太多的未知之处,需要研究者的合作与不断努力。深入理解中国儿童青少年的抑郁问题,并为中国儿童青少年找到一把更精准、更合适的“尺子”,不仅是科学进步的要求,更关乎下一代健康成长的责任。

更多研究细节,见: Wang, Hu, Tian, Liu, An, Li, & Hu. The Heterogeneity of Youth Depression Scales. Chinaxiv. DOI:10.12074/202510.00115
 

参考文献:

[1] 陈雨濛, 张亚利, 俞国良. (2022). 2010~2020 中国内地大学生心理健康问题检出率的元分析. 心理科学进展, 30(5), 991–1004.

[2] 傅小兰, 张侃. (2023). 中国国民心理健康发展报告(2021~2022). 北京: 社会科学文献出版社.

[3] 黄潇潇, 张亚利, 俞国良. (2022). 2010~2020 中国内地小学生心理健康问题检出率的元分析. 心理科学进展, 30(5), 953–964.

[4] 荣丽敏, 郑艺, 段熙明, 刘彦志, 张晓燕, 胡瑞宇, … 刘燕. (2023). 2021和2022年中国居民抑郁和焦虑症状及其共患的相关因素. 中国心理卫生杂志, 37(12), 1023–1030.

[5] 于晓琪, 张亚利, 俞国良. (2022). 2010~2020 中国内地高中生心理健康问题检出率的元分析. 心理科学进展, 30(5), 978–990.

[6] 张亚利, 靳娟娟, 俞国良. (2022). 2010~2020 中国内地初中生心理健康问题检出率的元分析. 心理科学进展, 30(5), 965–977.

[7] Derogatis, L. R., Lipman, R. S., & Covi, L. (1973). SCL-90: An outpatient psychiatric rating scale—preliminary report. Psychopharmacology Bulletin, 9(1), 13–28.

[8] Fried, E. I., Flake, J. K., & Robinaugh, D. J. (2022). Revisiting the theoretical and methodological foundations of depression measurement. Nature Reviews Psychology, 1–11. https://doi.org/10.1038/s44159-022-00050-2

[9] Haroz, E. E., Ritchey, M., Bass, J. K., Kohrt, B. A., Augustinavicius, J., Michalopoulos, L., … Bolton, P. (2017). How is depression experienced around the world? A systematic review of qualitative literature. Social Science & Medicine, 183, 151–162.

[10] Lu, B., Lin, L., & Su, X. (2024). Global burden of depression or depressive symptoms in children and adolescents: A systematic review and meta-analysis. Journal of Affective Disorders, 354, 553–562.

[11] Rice, F., Riglin, L., Lomax, T., Souter, E., Potter, R., Smith, D. J., … Thapar, A. (2019). Adolescent and adult differences in major depression symptom profiles. Journal of Affective Disorders, 243, 175–181.

[12] Zung, W. W. K. (1965). A Self-Rating Depression Scale. Archives of General Psychiatry, 12(1), 63.


 

 
话题:



0

推荐

知识分子

知识分子

4137篇文章 2小时前更新

由饶毅、鲁白、谢宇三位学者创办的移动新媒体平台,现任主编为周忠和、毛淑德、夏志宏。知识分子致力于关注科学、人文、思想。我们将兼容并包,时刻为渴望知识、独立思考的人努力,共享人类知识、共析现代思想、共建智趣中国。

文章