白癜风专家研讨会 http://pf.39.net/bdfyy/jdsb/171020/5777847.html
#关键词#
因果思维,研究人群,因果推断,横截面,纵向,研究设计
#摘要#
流行病学是对一定数量的人群进行特征描述和比较,并在此基础上进行因果推断。研究人群的形成是其第一步。本文以观察性研究为例,首先定义个体截面和人群截面,并阐明其测量需满足的三个假设:属性真实值随时间保持不变,属性变量间互不干扰,个体间互不干扰;接着指出因果推断研究应以待定因(或暴露)的发生或状态开始的时间为标准进行统一;最后,基于人群截面的双重角色,提出人群的因果推断研究可分为两类:历史重建研究和探索未来研究,并初步梳理了研究设计框架、估计的效应及设计间的关系。从因果思维角度探讨研究人群的形成过程,可为明确因果推断研究设计类型奠定基础,选取合适的效应估计进行因果推断,值得深入研究。
#正文#
流行病学对一定数量的人群(population)进行特征的描述和比较。人群是其核心概念,基本研究单位(通常为个体)能否被纳入研究人群,取决于其固有的内在和外部关系。因此,被纳入研究的基本研究单位在现实世界中应具有共同的因果经历[1-2]。如何选择研究人群?这通常是研究需要直面的第一个问题,并直接影响着研究的科学性、可行性、设计类型的选择等。人群的选择,实质上对源人群中的个体们予以“纳入研究”和“不纳入研究”的标识,从这点上来说,人群的选择是一个“二分类”的测量过程。基于因果律结合因果思维,从测量的角度,本文初步探讨了在观察性研究中,研究人群的形成、测量及其对因果推断相关设计类型分类上的作用。
一、
截面与测量
在几何学中,截面(或横断面)指用一个平面截取几何体所得到的平面几何图形。若将此概念应用于流行病学领域中,对于特定的人群,将自然时间上个体及其属性或特征的集合视为一个几何体,以垂直于自然时间轴的平面去截取该人群几何体,获得一个截面,即获得研究人群及其相应的属性子集。因此,截面可被定义为同一时点上两个及以上变量之间虚拟线段与时间轴垂直方向相交所形成的虚拟时间面(图1)[3]。由图1可见,人群属性变量A、B、C均在时点t的截面上,为人群截面t时点时的属性集合。本文将从个体和群体两个水平来阐述流行病学研究中截面这一定义及其在测量中的体现。为便于展示,示意图均采用二维的形式。
注:A、B、C:截面上的人群属性变量
图1截面示意图
1.个体水平:
个体是人群的最基本组成单位,脱离时空的个体是不存在的。一旦空间得以明确,在某一特定的时点上,个体及其所处环境的相关属性可通过测量被认识。如要明确张三是否携带HBsAg,对其进行血液采集并检测,获得张三HBsAg(+)或HBsAg(-)的属性。从科学家的视角来看,有血有肉的个体张三实质上是其自身及所处环境各种(现时的或历史的)属性的集合,或“属性体”;以合适的变量及其取值来指代这些属性,即构成了“真实值人”;通过合适的方法对“真实值人”进行测量,则成为“测量值人”。在观察性研究中,真实值领先于测量值,二者之间的时间差,提示着人类认识这个世界是在进行着属性的历史重建或“考古”[4]!
对个体如张三,在一确定的时点或研究起点,可认为其“真实值人”(或所有属性的真实值)虽然是未知的,但是明确的,即此刻张三的所有属性的真实值不变。这些属性在此确定的时点(或同一时刻),形成了张三的“真实值人”的截面,或称之为个体截面。如反映张三属性的变量Q1~Q6(图2),在同一时点上各属性相应的真实值集合构成个体截面。综上,个体截面是由其“属性体”以“真实值人”形式组合而成的大自然时间轴上特定时点上的垂直面。
“属性体”可分为:①现时/当前属性:在调查时刻的属性,如各种生理生化指标、血压、身高、体重等变量所代表的属性。②历史属性:在调查时刻,对个体属性自调查时点回溯至历史某一时刻的情况,如Doll和Hill进行英国医生吸烟与肺癌的研究时,对医生与吸烟相关历史进行调查,包括开始吸烟年龄、吸烟量、是否戒烟等变量;孕妇队列研究时,对孕妇的初潮年龄、既往孕产史等进行调查。
对张三的“真实值人”中的变量Q1~Q6进行具体调查或测量的时候(或调查时点),同一调查员通常按照Q1~Q6的顺序依次对其进行测量,其“测量值人”以同名变量加上标“*”来表示。此时隐含着1个假设,即调查时点上变量的真实值与个体截面上对应变量的真实值相等,或个体“真实值人”的属性真实值不变(第一假设)。变量间测量可存在着或长或短的时间差,因此对张三的“真实值人”中的变量进行测量时,其所对应的各个测量变量间表现为纵向时序;同时,应假设这些变量在整个测量过程中互不干扰(第二假设)。针对张三上述的6个变量,任一调查员可有6!=种测量组合,图2列举了3种可能的测量方法。若这2个假设满足,截面变量Q1~Q6的测量顺序并不重要。
注:Q1~Q6代表个体的6个属性变量,同一属性在轴上不同位置代表不同时点相应的“真实值人”,为便于展示不再采用不同标识;带*变量表示其前一时点相应属性变量的“测量值人”
图2个体截面及其测量
2.人群水平:
人群由个体组成。在特定时点,人群经抽样或选择,一旦得以确定,即形成研究人群,则该人群中所有个体间或个体的所有属性变量(“真实值人”)均在此特定时点上(或研究起点)。因此,人群截面是组成该群体的所有个体截面的集合。如图3所示,纳入研究时刘一、陈二和张三的属性变量Q1~Q6的“真实值人”,在同一人群截面上。
研究具体实施时,对人群的测量,是按照同一调查员对每个个体依次进(图3),或不同调查员对不同个体大致在同一时间进行的(图4)。从这点上看来,人群截面研究中的个体们进入实际调查的时间具有类似于队列人群的纵向“随访”的特征。个体间同一变量或不同变量间均难以保证同时进行调查。因此,对人群截面所有个体的所有变量的测量,除了具备上述个体截面测量的2个假设之外,尚需要满足,对人群截面上各个个体“真实值人”间的测量互不干扰(第三假设)。如张三被诊断为急性戊型肝炎,告知了李四,医院进行检测,这是个体间测量相互干扰的情形。
由上可见,人群或个体一旦确定,即视此刻为研究起点,个体截面或人群截面得以明确,二者均为理论上的概念,在实际研究中通常无法做到在某确定的自然时点完成所有的测量,不同个体的调查起点可不同,变量间时序表现为按照调查顺序的纵向时序,个体间同一属性变量或同一个体内不同变量的测量几乎无法保证同时性,因此研究得以实现,必须存在3个假设:个体“真实值人”不变、变量间和个体间在整个测量过程中互不干扰。仅在假设成立时,方能称属性被正确测量了,且测量顺序不影响研究结果,否则可能因为得到错误的测量值而导致效应估计的错误。3个假设对于研究十分重要,然而在实际研究中,这3个假设难以被检验和评估,通常仅基于经验默认其成立。
注:属性在轴上不同位置代表不同时点相应的“真实值人”,为便于展示不再采用不同标识;带*变量表示其前一时点相应属性变量的“测量值人”
图3人群截面及其测量:同一调查员对3个个体依次调查
注:Q1、Q2、Q3代表刘一、陈二或张三的3个属性变量;同一属性在轴上不同位置代表不同时点相应的“真实值人”,为便于展示不再采用不同标识;带*变量表示其前一时点相应属性变量的“测量值人”
图4人群截面及其测量:3名调查员分别对3个个体几乎同时进行调查
二、
流行病学研究设计——基于截面定义
1.研究人群的确定方式:
研究人群由动态人群中的个体们组成,其确定有2种方式:第一种方式为截面人群:以截面形式从动态人群进行截取,即人群截面,如普查的情况类似于此。如我国第六次人口普查以年11月1日零点作为截面,调查员上门调查笔者时,带着打印好的信息表,对笔者的信息逐一进行核对和补充;此次普查中,在截面时点后出生的新生儿不在调查统计内。第二种方式为纵向人群:动态人群中的个体逐个依次进入研究,累积到一定数量,构成研究人群,此种方式可理解为是由若干人群截面构成的人群。例如,在研究儿童病毒性脑炎病原学中,医院进行脑脊液采集的儿童被逐个纳入研究,其具体的病毒性脑炎诊断在此刻及后续时间进行。从具体的调查实践来看,2种确定人群的方式并无明确不同,个体们都是逐渐或成批进入实际的调查研究。截面人群即便是逐个纳入研究,但个体们在选定截面上的属性是确定的,调查采集的是调查时点上的属性真实值对应的测量值,而非截面时点的属性真实值对应的测量值,因此,测量的第一假设确保调查时点和截面时点属性真实值的一致性,使得调查时点属性的测量值具有对截面时点属性真实值较好的代表。通常第一种方式的调查时间相对较短,而第二种方式的调查时间相对较长。
截面人群或纵向人群所获取的个体,代表在纳入研究一刻对所有满足或类似于此个体的人群总体进行的普查或抽样。抽样的代表性取决于多种因素的影响,如人群是否稳态?抽样是否随机?抽样比例是否足够?通常,对截面人群的调查时间不宜很长,具体视研究目的而定。对急性病,如戊型肝炎,时间不能超过其病程或HEV-IgM可识别的时期(约6个月),因疾病状态在短期内将发生变化;而人群的稳态性,随着时间的推移而可能受到破坏。对慢性病,因其通常具有无限病程的特征,时间上的考虑显得次要,而更多地专注于慢性病导致的结局(如死亡、失访等情形)而产生的偏倚;这种患者丢失的情形同样可影响人群的稳态性,这对卫生资源供给性研究的影响不大,然而对疾病的因果推断则将产生较大影响。对于纵向人群,个体对人群的代表性取决于纳入个体那一刻,满足条件的总体人群数量及该个体对此刻总体的代表性。不同时纳入的个体是对整个纳入过程中各个调查时点总人群的一个代表。
2.统一研究起点,构建研究人群截面:
由上文可见,实际研究中研究人群的确立可采用截面和纵向面两种形式,但对人群属性的测量则毫无例外地采用纵向测量的方式。虽然如此,从测量的本质上来说仍然是基于截面概念基础上进行的因果推断。在实际研究中,通常需根据研究目的统一研究对象的研究起点,构建研究需要的人群截面。
研究起点以研究人群确定的那一刻为准,通常以实际研究中第一个或第一批个体的调查时点为准。然而,个体被调查或进入研究则是逐渐进行的,个体的调查时点可不同。某些研究,以特定的日期作为研究起点,如出生队列使用的出生日期、疾病预后队列采用疾病的诊断日期、孕妇队列采用零孕周等,视研究的不同目的而定。实质上,这些起点亦与上述研究起点的内涵一致。
以建立孕妇队列为例(图5),根据自然日期依次纳入研究的例孕妇,第1例开始于年3月2日,最后1例招募于近40周后。与常规人群队列不同的是,妊娠为育龄女性一个特殊的生理状态,有其固有的起点(零孕周)、终点(妊娠结束)和相对固定的长度(正常约40孕周)。到底是以零孕周为起点,还是以纳入队列的时间为研究起点呢?毕竟,每一自然日期只有一部分孕妇纳入研究,代表着我们对该自然日里满足纳入和排除条件的孕妇们(动态)的一次抽样。如果研究目的是估计纳入研究时的孕妇的属性如何受其人口学特征的影响,则应统一以零孕周为研究起点(然而,这个时点并不明确,一般通过末次月经日期来推算);如研究目的是估计纳入研究时的孕妇属性如何影响其未来的健康或疾病状况(如结局),则通常应以孕妇纳入研究的自然时间为研究起点。
由上可见,因个体进入研究的具体时机(或调查时点)不同,实际研究时需对不同个体的不同调查时点,按照一个明确的时点(病因的发生或维持的状态时)进行统一,如研究起点。至此,研究人群中的所有个体均归结于同一人群截面。这种人群招募的方式是否具有代表性,取决于每个个体纳入研究时,该个体是否能够代表着纳入时点时满足条件的所有合格的人群。整个研究人群的代表性是各个调查起点个体(们)对此刻人群代表性的综合。
注:纵坐标为1~个队列孕妇编号,每一线条代表一名孕妇自零孕周至妊娠结束时间
图5孕妇招募过程:不同研究起点对比
3.基于人群截面的形成过程分类研究设计:
动态人群疾病自然发生发展的规律,或动态人群的自然图景[2],奠定了研究人群选择的基础。人群截面既可是其历史人群经过一定时间后形成的,又可是在此基础上对其进行随访观察,经过一定时间后形成的未来人群。从因果推断研究来看,前者的果已然发生,而后者的果将在未来发生。据此,人群研究可分为两类:
(1)历史重建:研究实施时,既然果已然发生,那么因自然早于果而发生,此时采用对果及因的测量以实现因果推断,本文将此类研究定义为历史重建研究(historyreconstructionresearch,HRR)。其特点体现在:①暴露(或因)和结局(或果)的情形已定格于历史,针对因或果的干预已无可能,因此只能针对已发生的因或果进行观察,即测量因和果。许多暴发原因的调查属于此类,如JohnSnow的伦敦宽街水泵与霍乱流行的案例。②对因和果的测量均存在于同一时域,可存在着多种测量时序[5]。③因和果已经发生,是否能够准确地测量暴露、结局及其两者之间的关系,成为我们必须面对的问题;而谁先谁后测量则不重要。
基于因和果的历史测量记录(第一次或多次),为进行HRR提供了实践选择设计的多种可能性。基于此,当前HRR可包括以下不同情形:①所有二手数据:历史已对因和果经过测量,本次HRR研究系再测量的过程,如记录联结研究。②暴发调查:暴发的确立是某一特定地理区域在较短时间内出现并被已被识别(或诊断)的多个病例,显著超过散发的水平。若暴发的整个过程已然完成,此时进行的是暴发及其原因的调查。③累积病例对照研究、横断面研究、历史性队列研究、横断面队列研究[6]。④(死因或疾病原因)回顾调查。此外,真实世界研究中涉及果已发生并拟进行因果推断的研究均属于此。
(2)探索未来:研究实施时,果尚未发生,在优先获知因的基础上,采用对因的测量或已知的因(如干预研究中,药物或疫苗的剂量是明确的),并对人群进行随访以获得果的测量,从而实现因果推断,本文将其定义为探索未来研究(futureexplorationresearch,FER)。其特点体现在:①针对因或果的干预存在着可能,因此针对已发生的因先进行测量,在未来某一时刻对果进行测量。②因和果的测量均存在跨时域的特点,即在测量时序上,测量因可发生在因果之间、果之后,视不同研究设计而定。③可对因进行多次的跟踪随访观察。当前FER可包括以下不同情形:前瞻性队列研究、重复横断面研究、干预研究、临床试验等流行病学设计。
4.不同研究设计的因果推断框架:
因果推断是流行病学研究的主要目标之一。基于上述思想,以下将简要阐明不同的研究设计类型在进行因果推断中实际估计的效应关系。
假定变量A为暴露,Y为结局,其同名变量带下标代表着不同时间点相应变量,以探索A-Y的效应为目标;并假定人群截面为A0-Y0,建立了研究人群因果图的基本结构(图6)。
由图6可见,在HRR中,横断面设计、横断面队列研究和历史性队列研究拟估计的是同一效应,即A-1-Y0间的效应,但3种设计拟获得的关联可不同,前二者均为A0*-Y0*的关联,而后者则是建立在已有A-1*和Y0*的数据或可实现对其进行历史重建的基础上,以获取A-1*-Y0*的关联为目标。在FER中,队列研究以A0-Y1间的效应为目标,以A0*-Y1*的关联来实现;而实验或干预研究则将研究对象限制于暴露组(如仅吸烟者接受不同戒烟措施的干预,以评价不同措施间的效应)或非暴露组(如仅易感者才接受疫苗接种),对其接受可改变A0的不同干预措施I*,以影响结局Y1的发生,估计I*-Y1的效应为目标,以I*-Y1*的关联来实现;此时,因研究人群一般限制于特定人群,如禁烟方法评估针对的是吸烟者,而不包括非吸烟者;若研究人群未进行限制,即为社区干预试验。
针对暴露、结局和/或全人群的抽样研究,不影响图6的基本结构,其研究的目标不变,如用于HRR研究的累积病例对照设计等。
注:A0代表待研究的暴露,Y0代表待研究的结局,下标“-1”或“1”代表A0/Y0所对应时点前或后时点的同一属性,上标“*”代表相应属性变量的“测量值人”,蓝色方框代表对研究人群实施干预时,仅限制人群(以蓝色方框表示)接受干预措施I*
图6因果推断研究设计框架
三、
讨论
大自然只有一个因果律;因果推断研究中,通过各种设计,以无限接近这种因果律为目标,测量是实现这一目标的唯一办法。人群中实际发生的因果律是不以人的意志为转移的,但却可以通过测量,帮助我们实现因果推断,从而认识这种因果律。因此,研究实质上是一个测量的过程,研究设计是规范整个测量过程的计划。形成研究人群是所有因果推断研究的第一步,实质上是对自然人群中的个体予以标记为“纳入研究”的符号,以区分自然人群中其余未被纳入的个体们。从这点上来说,研究人群的选择实质上也是一个“二分类”的测量过程。
从测量的角度,在因果推断研究人群的形成过程中,本研究首先提出了个体截面和人群截面的概念,并发现实现测量的目标需满足:属性真实值不变、属性变量间和个体间互不干扰的3个假设;研究起点是调查时点的统一;因果推断研究可分为历史重建研究和探索未来研究2种类型。
截面是特定时点上个体或人群的属性组合而成的与大自然时间轴的垂直面[3]。类似于横断面研究中的“快照”,截面仅是圈定了研究人群中的个体们,而不是固定住人群中个体们的属性。不论是个体还是人群,这种截面的建立和形成,在第一假设成立的前提下,确保截面时点和调查时点一致的属性真实值的参考,并锚定了属性变量测量值的大致变动范围[5],即在正确的测量过程实施后,测量值是真实值的一个良好的替代。虽然对每一个体的同一属性或同一个体的不同属性进行具体调查或测量的时点不同,但需假设在具体的调查时点上,属性变量的真实值与截面同一属性变量真实值不变(第1假设),这奠定了通过测量过程获得测量值的可行性;不同个体间或同一个体不同变量间的独立性(第2和第3假设),避免变量测量值间相互干扰所产生的可能偏倚[3],从而保障了变量测量值用于人群因果推断的有效性。由此可见,测量是个复杂的过程,截面概念的形成和3个假设的建立,为基于人群的因果推断研究奠定了理论基础。
截面人群和纵向人群由Miettinen于年提出[7],然而其具体的内涵不完全明确。研究起点可界定于个体满足人群的成员资格并进入研究那一刻;但在实际研究中,在不同的自然时间上,不同个体逐步进入研究,接受调查,并形成人群;不论是截面人群还是纵向人群,这个过程是相似的,具有随着时间而持续不断的特征。因此,如何统一人群研究的起点是重要的,上述3个假设为研究起点的确立奠定基础。同时,考虑到研究目标的不同,因果推断仍应以暴露(或因)的发生或状态维持的时间为标准,而对其具体的测量则应以能否获得准确的测量值为原则。
研究设计的分类有多种方法[8-15],主要基于样本选择、调查时机、方向性等;然而设计内涵本身的模糊性[16-18],阻碍了对设计的正确认识、选择、误解或争议[17,19],如横断面研究与病例对照研究之间、历史性队列研究与累积病例对照研究之间有时不易区分[2,6],方向性对设计类型是否有用的争议等[14,15,20-29]。本文在上述截面概念、三个假设和研究起点统一的基础上,以果是否发生为界线,从因果律结合因果思维的角度,自然地将人群研究分为历史重建研究和探索未来研究两大类,并对其特点、拟估计的效应、可实现的关联计算、不同设计间的异同等进行了探索,这对澄清不同设计间的基础、假设及建立根基扎实的研究设计分类具有重要的参考价值。
综上所述,本文从因果思维的角度出发,首先建立个体截面和人群截面的概念,提出了实现测量的三个假设,并指出因果推断研究用人群应以暴露(或因)的发生或状态维持的时间为标准,初步建立了研究设计的分类框架。应在此基础上,进一步进行研究设计分类的深入研究。
作者邮箱:causalepi
.