白斑复色 http://disease.39.net/yldt/bjzkbdfyy/6201576.html
目录
第一节病因的基本概念
第二节病因学说与病因模型
第三节充分病因-组分病因模型
第四节发现和验证病因
第五节因果关系推论
一、科学推论的一般原则
二、评价单个研究的真实性
(一)真实性和研究质量
(二)决定研究质量的因素
(三)评价研究质量的方法
三、综合所有证据的推论:希尔准则
四、综合所有证据的推论:系统综述
五、病因推论的困难
第五节因果关系推论
探索因果关系的流行病学研究是在人群中寻找因果关系三个基本条件的研究。和其他研究一样,所有流行病学研究都不可能完全排除误差存在的可能性,即使队列研究和随机对照试验也不例外。根据研究设计和研究过程的特征,对研究中误差及其大小进行评估,并利用现有知识进一步判断研究结果的合理性,最后对因果关系存在的可能性做出判断,这就是流行病研究推论因果关系的程序。
一、科学推论的一般原则
科学推论(scientificinference)是依据科学研究的结果对事物的本质或普遍规律进行的推断。科学推论需要遵循一定的原则,按照一定的程序,推论的一个重要部分是对结论正确性的评估。
推论有三个层次,一是根据某具体研究进行的推论,二是根据所有同类研究进行的推论,三是根据所有有关证据进行的推论(表5)。每一项科学研究都是对其所探索的问题进行的一次探索。在单个研究层面上,推论结果的正确性首先取决于研究的相关性和设计类型。比如,动物实验发现的病因未必能外推到人类。再如,病例系列研究可以用来探索病因,但是由于其设计框架的问题,无论研究的其他方面多么的严谨,其因果关系的推论也不可能十分可靠。如果是一项高质量的随机对照试验,其发现的因果关系应是迄今可获得的最可靠的结果。其次,推论的正确性取决于研究的方法学质量和样本量,研究质量越高,样本量越大,推论结果的正确性就越高。研究质量的重要性大于样本量,如果质量很低,无论样本量多大,结果都是不可信的。
表5病因推论的两个层次和两个方面
A)病因推论的两个层次
?单一研究内(真实性)的推论
?基于现有所有相关证据的推论
?基于所有有关证据的推论
B)病因推论的两个方面
?对定性结论的推论
?对定量结果的推论
假如一项研究是完美的,其人群代表性是高的,设计是合理的,测量是准确的,执行是严谨的,结果没有任何误差和偏倚,样本量足够大,那么该研究本身就足以对所研究的问题做出正确的推论。然而,完美的研究是不存在的,任何研究都可能存在这样或那样的问题,或多或少存在误差和偏倚,因此可靠的推论往往不能基于单一的研究,而是建立在很多同类研究甚至相关研究的基础之上。另外,其他有关知识和研究(如动物研究)结果可用来解释因果关系的合理性,作为支持因果推论的补充证据。
下面将围绕基于单个研究及所有证据的推论,讨论因果关系推论的原则、程序和对结论正确性的判断。
二、评价单个研究的真实性
即使是依据多项研究进行推论,原始研究的真实性(validity)仍然是推论正确性的重要决定因素,因此对原始研究真实性的评估是推论的前提。同理,评估一项研究的真实性也是流行病学病因推论的基础。
(一)真实性和研究质量
这里的真实性特指一项研究的内部真实性(internalvalidity),即在研究条件下观察的结果与真实的接近程度。研究的目的在于求得真实,观察与真实之间的差别叫偏倚或系统误差。一项研究的偏倚与其结果的内部真实性成反比。决定研究结果内部真实性的是研究的方法学质量,或简称研究质量(methodologicalquality)。研究质量是对研究偏倚控制程度的总体衡量。因此,研究质量决定研究结果的真实性,质量越高,偏倚就越小,结果的真实性就越高,结论正确的可能性就越大。
(二)决定研究质量的因素
研究的质量由研究的偏倚控制措施决定。首先,研究设计是一项研究控制偏倚最基本的方法,一项研究的质量首先取决于研究设计的种类。比如,评价疗效时,从设计上讲,随机对照试验的质量一般应高于非随机的对照试验,后者又高于病例对照研究。对于病因研究,队列研究的质量高于病例对照研究,后者又高于病例系列研究。
第二,研究的质量进一步取决于流行病学研究的一般偏倚控制措施,如收集资料的准确性、组间测量的一致性、样本的代表性、减少失访、足够的观察时间等。
第三,研究的质量还取决于一类研究设计特有的偏倚控制措施,比如临床试验可使用随机分组、分组隐匿、盲法、维持原随机分组(intention-to-treat)分析等偏倚控制措施。但一项研究不一定采取所有这些措施。使用的越多,偏倚控制就越好,质量就越高。
另外,样本量决定抽样误差的大小,决定结果估计的精确性,本质上也是研究结果与真实接近程度的决定因素之一。
(三)评价研究质量的方法
评价一项研究的质量就是对该研究设计和偏倚控制措施进行分析和评价。一个简单、快速、粗略的评价方法是根据研究设计的类型,将研究质量(或研究提供的证据质量)进行分级。图10是对病因证据的分级,不同研究提供的证据质量自下而上逐渐递增。证据分级(hierarchyofevidence)是快速评估真实性常用的参考工具。对于疗效证据的分级,队列研究上面还有随机对照试验。
图10研究设计与证据质量
在研究设计的基础上,更详细的评价方法允许对同一类研究,根据其偏倚控制措施的多少和严谨程度,做进一步的质量划分。比如,对于一项队列研究,可根据其收集资料的准确性、样本的代表性、失访率、观察时间的长短、混杂控制等,以及这些措施实施的适当程度,将队列研究的质量进一步分为几个等级。
将证据更加详细地分级在理论上是可行的,但详细证据分级方法的可重复性和实用价值有待研究。一般认为将研究质量分为3-5级就可以满足病因推论的需要。比如:1,高质量:本研究的结论很可能是正确的;2,中等质量:未来研究有可能会改变本研究的结论;3,低质量:未来研究很有可能会改变本研究的结论;4,很低质量:本研究的结论很可能是错误的。
三、综合所有证据的推论:希尔准则
因果关系推断就是判定两个因素之间是否存在真实的因果关系,是科学推论的一种。病因推断是因果关系推断的一种,就是判定某因素是否某疾病真正的病因。
全面的病因推断必须基于目前所有相关的研究,研究人类疾病病因,在人群中进行的流行病学研究提供了最重要最直接的证据,而其他(如离体和动物)研究的证据或可用于形成病因假设,或可用做人群研究的补充证据。
严格来讲,因果关系推断包括两个层面,一是两个事件之间是否存在因果关系,二是该因果关系的强弱,前者是对定性结论的推断,后者是对定量结论的推断,相对更难(表5)。目前常讲的因果推断主要指定性推断。希尔(Hill)的九个条件是依据多项研究进行病因推论时常用的准则。
年多尔(Doll)和希尔提出用流行病研究结果判断病因的5条标准,年又将此标准增加为9条(表6)。今天,该标准常被简称为希尔准则(HillsCriteria),仍广泛地用于人群研究中判断因果关系。
表6希尔病因推断的九条标准
1.时间顺序(temporalorder)
2.关联强度(strengthofassociation)
3.剂量反应关系(dose-responserelation)
4.结果的一致性(consistency)
5.实验证据(experimentalevidence)
6.合理性(plausibility)
7.生物学一致性(coherence)
8.特异性(specificity)
9.相似性(analogy)
?[预测力(predictiveperformance),Susser]
1.时间顺序(temporalorder)时间顺序指因必须先于果发生的时间关系,是判断因果关系的必要条件。时间顺序是任何一项流行病学研究必须提供的证据,它寓于研究设计之中。例如,在队列研究伊始,可疑病因已经存在,但结果事件还没有发生。在时间顺序的可信度上,临床试验、队列研究、病例对照研究和横断面研究依次降低。
2.关联强度(strengthofassociation)关联强度是用来评价病因和疾病之间关联度高低的指标,一般用相对危险指标衡量,如相对危险度和比值比。两个因素间关联强度越高,该结果完全由于偏倚产生的可能性就越小,二者间存在因果关联的可能性就越大。比如,吸烟和肺癌之间的相对危险度约为13,是极少见的高关联强度,因此认为吸烟是肺癌病因的可能性很大。关联强度指标也是任何一项流行病学研究必须提供的信息。
3.剂量反应关系(dose-responserelation)指疾病的发生率随可疑病因的强度或数量的变化而变化的现象。剂量反应关系的存在进一步支持因果关系的存在。
时间顺序、关联强度和剂量反应关系指标都是一项流行病学研究内部即可提供的信息。
4.研究的一致性(consistency)指同类研究结果的一致性,一致性越高,因果关系的可能性就越大。评估一致性需要比较不同的研究,不能在一个研究内得出一致性的结论。一致性又叫可重复性(repeatability),是不同时间、不同地点、不同人群、不同研究者使用类似的研究方法可重复获得相同或类似结果的可能性。被重复的次数越多,一致性越高,因果关系存在的可能性就越大。
5.实验证据(experimentalevidence)实验证据指关于某关联的实验性研究证据。在人群中的病因研究都属于观察性研究,观察性研究的结论可能出错,可以用更可靠的实验性研究加以确证。例如,用随机对照试验证明在人群中减少吸烟可以降低肺癌的发病率,就是实验证据。
6.生物学合理性(plausibility)生物学合理性指某病因假设与该疾病有关的事实、知识和理论相符合或一致的程度,或前者与后者不相悖的程度。生物学合理性越高,因果关系的可能就越大。
7.生物学一致性(coherence)生物学一致性指某病因假设与现有更一般的生物医学事实、知识和理论相符合或一致的程度,或前者可以被后者解释的程度。生物学一致性越高,因果关系的可能就越大。有人认为,生物学合理性和生物学一致性十分近似,可以合二为一。
8.特异性(specificity)特异性指病因和疾病之间的排他性或特异程度。如果一种病因只能引起一种疾病,或只在某特殊人群引起疾病,且该疾病只有一种病因,该病因与疾病的关系具有高度特异性。特异性越高,因果关系的可能就越大。
9.相似性(analogy)相似性指存在已知的类似的病因和疾病的因果关系,由于可以类比的因果关系的存在,将加强新的因果关系的可能性。例如,如果已知某化学物有致癌作用,当发现另一种类似的化学物与同一种癌症也存在关联时,类似的化学物质也可致癌的可能性将加大。
10.在希尔准则的基础上,年美国流行病学家MarvynSusser增加了预测力(predictiveperformance)一项,使该准则共有10项标准。这是一项十分重要的补充。在科学上,对一个理论检验最有力的方法就是评估它的预测能力,简单地说,就是利用该理论提出一个对未来或是过去的预测,然后再收集数据评估预测的正确性。比如,根据相对论可以预测核能的可能性,原子弹和核电站的成功反过来证明了相对论的正确性。再如,观察性研究发现高血压可能是心血管病的病因,依此可以预测降低血压可以减少心血管病的发生,这个预测的确得到了抗高血压药物随机对照试验的支持,更进一步证明了高血压是心血管病的病因的假说。
总之,以上10个标准中,存在关联(包括剂量反应关系)以及关联的时间特征是判断因果关系的必要条件和特异条件。必要的意思是它们必须存在,如果不存在,就可以否定因果关系的存在;特异的意思是这两个条件是确立因果关系特有的条件,是每一项病因研究必须提供的信息,但不是论证其他问题的必要条件,如论证诊断的准确性时则不需要。而其他7项条件是有关研究之间的信息或流行病学研究之外的知识,是非特异的条件,是科学推论中使用的一般性标准,其中结果的一致性最为重要。它们又是非必要的条件,即缺乏任何一项或所有7项,都不能足以否定因果关系的存在。另外,所有10项条件都不是充分条件,即使两个事件的关系满足了所有10项条件,也不能百分百肯定它是因果关系。
希尔准则存在几个明显的重要的缺陷:第一,没有考虑收集的原始研究是否全面和完整。第二,对原始研究证据的真实性(即原始研究的方法学质量)没有考评。如果两个因素之间符合所有10个条件,提示二者很可能存在因果关系,但是如果关于这些条件的证据是不可信的,则没有理由相信该因果关系的存在。
第三,希尔准则将一个研究内提供的信息以及可在研究间观察到的信息和流行病学研究以外的信息混为一谈,认为它们是同等重要的。显然,在判断因果关系上,存在关联(或剂量反应关系)以及关联的时间顺序是特异的和必要条件,是判断因果关系的基本条件,是特异的准则。在非特异性准则中,与生物学合理性、生物学一致性、特异性和相似性比较,研究的一致性、实验证据和预测能力则更具有因果关系的判定能力。
第四,在非特异的标准中,一致性是最关键的条件,但是希尔对什么是一致性没有量化的界定,因此很难判断。况且,缺乏一致性可能是交互作用造成的,交互作用的存在支持了病因推断的特异性的标准,因此一致性不好不一定是因果关系不存在,甚至很可能相反,不可一概而论。
四、综合所有证据的推论:系统综述
20世纪末,循证医学出现,把对医学领域因果关系的研究和推论推向了新的阶段。循证医学呼吁,临床决策必须基于现有最好的证据,这些证据主要指人群中进行的医学应用型研究。依据证据进行实践,首先必须对证据的真实性进行评估。但是,循证医学首先