在上一期,我们已经讲完了线性回归分析,这期开始讲logistic回归分析,我们首先来理清logistic回归分析的基础知识,主要从logistic回归分析的基本概念、主要类型、具体步骤、直线回归与直线相关分析的区别与联系及应用线性回归分析时应注意的问题这几方面进行讲解。
logistic回归分析与多重线性回归模型关系及基本概念
多重线性回归模型用于分析一个连续性因变量与一组自变量之间的关系,但是若因变量为分类变量,那么因变量与自变量之间就丧失了这种线性关系,但是经过Logist变化,则将模型 转变为线性关系,这便是Logistic回归模型。
logistic回归又称logistic回归分析,主要在流行病学中应用较多,比较常用的情形是探索某疾病的危险因素,根据危险因素预测某疾病发生的概率等等。例如,想探讨胃癌发生的危险因素,可以选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群肯定有不同的体征和生活方式等。这里的因变量就是是否胃癌,即“是”或“否”,为两分类变量,自变量就可以包括很多了,例如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。通过logistic回归分析,就可以大致了解到底哪些因素是胃癌的危险因素。logistic回归的因变量可以是二分类的,也可以是多分类的。
logistic回归与多重线性回归实际上有很多相同之处,最大的区别就在于他们的因变量不同,其他的基本都差不多,正是因为如此,这两种回归可以归于同一个家族,即广义线性模型(generalized linear model)。这一家族中的模型形式基本上都差不多,不同的就是因变量不同,如果是连续的,就是多重线性回归,如果是二项分布,就是logistic回归,如果是poisson分布,就是poisson回归,如果是负二项分布,就是负二项回归,等等。只要注意区分它们的因变量就可以了。
logistic回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最为常用的就是二分类的logistic回归。
logistic回归自变量的应用条件与多重线性回归的应用条件基本相同,主要的区别是因变量Y是分类变量,多重线性回归中Y是服从正态的定量变量。
对于多重共线性问题:(1)多重共线性是普遍存在的,轻微的多重共线性问题可不采取措施,如果VIF值大于10说明共线性很严重,这种情况需要处理,如果VIF值在5以下不需要处理,如果VIF介于5~10之间视情况而定。(2)如果模型仅用于预测,则只要拟合程度好,可不处理多重共线性问题,存在多重共线性的模型用于预测时,往往不影响预测结果。
logistic回归分析分类
根据纳入回归模型的自变量个数不同,可将Logistic回归分为单因素和多因素。
1.单因素Logistic回归(又称简单Logistic回归),指在模型中只包含一个自变量的情况,用来评估单一因子对结果概率的影响大小和方向。
2.多因素Logistic回归即包含两个及以上的自变量的情况,可同时考察多个因素对结果变量的影响,因为现实中某一个疾病的发生往往是多变量共同作用所致。
3.单因素和多因素Logistic回归之间的关系是包含与被包含的关系。单因素Logistic回归是多因素Logistic回归的一个特例,后者是更为一般的形式。在实际应用中,研究者通常首先进行单因素Logistic回归分析,以识别可能的重要预测因素。然后,在多因素Logistic回归中包含这些因素,以控制混杂变量,准确估计每个因素的效应。
4.平时所说的多变量Logistc回归,是指自变量所命名,有多个自变量,而因变量仍然可能是二分类、多分类、条件或非条件。总之,不管怎样,假如因变量连续变量,则要将其转变为分类变量。
根据因变量的不同,可将Logistic回归分为二元logistic回归和多元Logistic回归。
1.二元logistic回归模型的因变量Y是必须是两分类变量(不是指多个变量),如是否患病、是否死亡、成功与失败、疗效分为是否治愈,其取值常编码为0和1。
2.多元Logistic回归顾名思义,因变量Y是多分类变量,进一步分为有序多分类(如疾病轻、中、重)(如显效、有效、无效)和无序多分类(如鳞癌、腺癌、大细胞癌)。
按统计设计分为条件(成组)Logistc回归与非条件(配对)Logistc回归。
1.条件logistic回归,用于分析配对病例对照研究,条件logit是按因变量1:1或者1:n配对或者n:m配对的。条件logistic回归时,数据中一定需要记录下配对编号,比如1:2的配对(1个病例配对2个对照,且共有20个组,组别编号从1到20,那么同时会有3个1,3个2,3个3,类似下去),而且在分析时将配对编号放入对应框中。在做条件logistic回归时,因变量只能为0和1二分类数据。数字中只能包括0和1,如果不是,可使用[数据处理]->[数据编码]进行设置。
2.另一种是非条件logistic回归,用于分析成组数据或非配对的病例对照研究。
logistic回归分析主要用途
1.校正混杂因素:医学研究中,观察对象的某一结局(生存或死亡、阳性或阴性等)常常受到诸多因素的综合影响,包括研究因素与混杂因素。采用Logistic回归分析技术,将研究因素、混杂因素及其交互作用均体现在模型中,口此能够在控制混杂因素的作用下,对研究因素与结局变量间的联系作出定量描述。
2.筛选危险因素:在设计阶段,根据基础理论知识纳入对结局可能有影响的变量,由于一些变量的作用尚不清楚,或纳入变量太多,则需要按照事先规定的检验标准,将有统计意义的 变量纳入模型,无统计学意义的变量剔除在外,以保证模型最优。
3.预测与判断:(1)预测:如果已经建立了logistic回归模型,则可以根据模型,预测在不同的自变量情况下,发生某病或某种情况的概率有多大。(2)判别:实际上跟预测有些类似,也是根据logistic模型,判断某人属于某病或属于某种情况的概率有多大,也就是看一下这个人有多大的可能性是属于某病。(3)非条件Logistic回归的重要应用之一即是预测与判断,如通过检验,所建立的方程能很好地表达变量间的关系,具有较好的拟合优度。我们给定自变量的数值,则可以通过非条件Logistic回归方程计算相应的概率预测值,对个体所属类别作出概率性的判断。但 由于条件Logistic回归模型不能估计常数项,其结果只能帮助分析变量的效应,不能用于预测。
logistic 回归分析的应用条件
1.两分类Logistic回归分析的因变量必须是两分类变量,如是否患病、是否死亡、成功与失效、疗效分为是否治愈。
2.自变量与因变量的关系基本上呈“S”形曲线关系,或者自变量与Logist(P)呈直线关系。但不要求自变量符合正态分布。
3.个体间的独立性,即甲是否患病不影响乙是否患病。(可以解释为自变量之间无多重共线性)
4.各自变量间的联合作用符合乘法模型。
5.该资料是多变量资料,有分类资料也有数值型资料,而因变量是两分类资料。
logistic回归系数符号反常与主要变量选不进方程的原因
1.存在多元共线性;
2.有重要影响的因素未包括在内;
3.某些变量个体间的差异很大;
4.样本内突出点上数据误差大;
5.变量的变化范围较小;
6.样本数太少。
logistic 回归分析的参数意义
1.Logistic 回归中的常数项(b0)表示,在不接触任何潜在危险/保护因素条件下,效应指标发生与不发生事件的概率之比的对数值。
2.Logistic 回归中的回归系数(bi)表示,其它所有自变量固定不变,某一因素改变一个单位时,效应指标发生与不发生事件的概率之比的对数变化值,即 OR 或 RR 的对数值。
需要指出的是,回归系数β的大小并不反映变量对疾病发生的重要性,那么哪种因素对模型贡献最大即与疾病联系最强呢? (InL(t-1)-InL(t)) 三种方法结果基本一致。
3.存在因素间交互作用时,Logistic 回归系数的解释变得更为复杂,应特别小心。
4.模型估计出 OR,当发病率较低时,OR≈RR,因此发病率高的疾病资料不适合使用该模型。另外,Logistic 模型不能利用随访研究中的时间信息,不考虑发病时间上的差异,因而只适于随访期较短的资料,否则随着随访期的延长,回归系数变得不稳定,标准误增加。
logistic回归分析有关说法
1.单变量(因素)分析:
单变量(因素)分析是数据分析中最简单的形式,其中被分析的数据只包含一个变量。因为它是一个单一的变量,它不处理原因或关系。单变量logistic回归分析的主要目的是描述数据并找出其中存在的模式。
可以将变量视为数据所属的类别,比如单变量分析中,有一个变量是“年龄”,另一个变量是“高度”等,单因素分析就不能同时观察这两个变量,也不能看它们之间的关系。
单变量数据中的发现模式有:查看平均值、模式、中位数、范围、方差、最大值、最小值、四分位数和标准偏差。此外,显示单变量数据的一些方法包括频率分布表、柱状图、直方图、频率多边形和饼状图。
2.双变量分析:
使用双变量分析来找出两个不同变量之间是否存在关系,在笛卡尔平面上(想想X和Y轴)将一个变量对另一个变量进行绘图,从而创建散点图(.plot),这样简单的事情有时可以让你了解数据试图告诉你的内容,如果数据似乎符合直线或曲线,那么这两个变量之间存在关系或相关性。例如,人们可能会选择热量摄入与体重的关系。
3.多变量分析:
多变量分析是对三个或更多变量的分析。根据你的目标,有多种方法可以执行多变量分析,这些方法中的一些包括添加树,典型相关分析,聚类分析,对应分析/多重对应分析,因子分析,广义Procrustean分析,MANOVA,多维尺度,多元回归分析,偏最小二乘回归,主成分分析/回归/ PARAFAC和冗余分析。
4.传统单因素分析与单因素回归分析关系:
单因素分析,顾名思义就是分析单一因素在组间的差异,例如我们最常用到的t检验、卡方检验、方差分析等等,通过这些传统的单因素分析方法,我们可以简单直接地观察到两组或多组之间均数或者率的分布差异。除了这些传统的单因素分析方法,我们在阅读文献时也能常常遇到“单因素回归分析”这样的说法。
其实不难理解,单因素回归分析就是在构建回归模型时,只纳入一个因素进入到回归模型中进行拟合,其理论上也应该属于单因素分析的范畴,只不过是用到了稍微高级一点的回归方法而已。
可是它和传统的单因素分析之间又有什么区别和联系呢?单因素回归分析与我们常用的传统的单因素分析方法,如t检验、方差分析和卡方检验等方法,它们之间在一定程度上其实是等价的,下面我们来向大家揭示一下这些神奇的等价关系,有兴趣的小伙伴可以自行推导哈。
t检验 vs 单因素线性回归
在线性回归中,对于模型整体回归效应的检验方法为方差分析,对于模型偏回归系数的检验方法为t检验。其实在简单线性回归,即单因素线性回归中,如果我们以分组变量作为自变量,待检验的变量作为因变量来构建回归模型,就会发现模型所得的偏回归系数估计值及其标准误,与因变量在两组之间差值的均值和标准误是相等的,且模型对于偏回归系数进行检验所得的t值和P值,也与两组之间t检验的t值和P值是一致的。
方差分析 vs 单因素线性回归
同样,方差分析与单因素线性回归的结果在一定程度上也是一致的。在方差分析中,由于分组变量一般超过2组,因此在进行单因素线性回归时我们需要先把分组变量转换为哑变量,然后将该哑变量作为自变量带入模型,待检验的变量作为因变量来构建回归模型。
我们前面已经提到对于线性回归模型整体效应的检验方法为方差分析,其实该方差分析的结果与单因素分析中的方差分析的结果是一致的,并且在模型中各个哑变量的偏回归系数估计值,与方差分析中各组与参照组差值的均值也是相等的。
卡方检验 vs 单因素logistic回归
不仅仅单因素线性回归的结果与t检验、方差分析的结果是一致的,单因素logistic回归的结果和卡方检验的结果也是等价的。在logistic回归中,对于整个模型和回归系数的检验采用的是似然比检验(LR)、Wald检验及Score检验,三者输出的统计量均服从卡方分布。
不难发现,Score检验的χ2值等于采用卡方检验所求得的Pearson χ2值,同样似然比检验的结果等于卡方检验中的似然比χ2值。
既然上面的结果这么完美,单因素回归分析和t检验、方差分析、卡方检验等传统的单因素分析方法的结果是等价的,那么到底应该选用哪种方法更好呢?
我们在阅读文献时常会发现,有的文章中仅用了传统的单因素分析方法,有的文章仅用了单因素回归分析,还有的文章在做完传统单因素分析后,又继续用单因素回归得出一个Unadjusted OR值,既然两种方法的结果实际上都是等价的,那为什么还要做两次单因素分析呢?
可以从下面几个角度去考虑:
(1)从统计分析的角度上讲,对于传统的单因素分析方法,其结果展示相对简单,它们仅能提示组间均值或率的分布差异有无统计学显著性;而采用单因素回归分析,除了定性的展示组间差异外,还可以提供更为丰富的信息,比如偏回归系数(β)的估计值、效应估计值(OR、RR值)等等,这些统计指标能够在一定程度上反映该指标的效应大小和可信区间。
(2)对于回归分析来说,先做单因素回归,再做多因素回归,这种分析思路展现了从单独一个因素到控制多个混杂因素的变化过程。此时,单因素回归分析的结果对于变量的筛选就显得很有意义,我们可以根据前后偏回归系数或者OR值的变化,来协助判断是否需要将其纳入到多因素回归中进行调整和控制。这种筛选变量的原则我们会在后续的文章中进行重点讨论,敬请期待。
(3)当然,我们在学习统计的时候,书本上对于传统的单因素分析方法以及回归分析方法的讲解往往都是各成一章,老师们也很少去介绍这些方法之间的联系,可能就会误导很多人单纯地认为回归分析比传统的单因素分析要高级一些,但并没有真正认识到它们之间还有这样不可思议的等价关系。
(4)也就是说单因素Logistic回归中,因变量只有一个,自变量也只有1个;但是这个时候不使用Logistic回归也可以解决问题的,根据具体情况选用卡方检验、t检验或方差分析的方法即可,不过Logistic回归有时可以得到更多的信息,但同时也需考虑模型拟和优度的问题。多因素Logistic回归中,因变量只有一个,自变量有多个。
(5)单因素Logistic回归分析在SPSS操作中,选择二元回归(binary logistic)(二分类Logistic回归分析也是选择这,下面操作一样),并且在分类协变量(categorical)那选择的因素作为本次的单因素,比如你研究AHI与性别关系,则在分类协变量选择性别。对于单因素Logistic回归分析在SPSS操作中,也有另外一种方法,就是在协变量里独自放一个本次研究的单因素就行(不放其他因素)
而多因素Logistic回归分析在SPSS操作中,选择多元回归,但在分类协变量(categorical)那选择的因素是作为控制因素(不变的因素)。对于多因素Logistic回归分析在SPSS操作中,也有另一种方法,选择二元回归(binary logistic),把所有因素放在协变量的框中即可,对于一些需要设置哑变量(等级资料,连续资料不需要设置虚拟变量。多分类变量需要设置虚拟变量,有时二分类设置是为了让其作为控制变量),然后将其放在分类协变量(categorical)那即可
5.使用Logistic模型前,需判断是否满足以下7项假设:
假设1:因变量(结局)是二分类变量。
假设2:有至少1个自变量,自变量可以是连续变量,也可以是分类变量。
假设3:每条观测间相互独立。分类变量(包括因变量和自变量)的分类必须全面且每一个分类间互斥。
假设4:最小样本量要求为自变量数目的15倍,但一些研究者认为样本量应达到自变量数目的50倍。
假设5:连续的自变量与因变量的logit转换值之间存在线性关系。
假设6:自变量之间无多重共线性。
假设7:没有明显的离群点、杠杆点和强影响点。
6.有些时候单因素p>0.05,但多因素可以出现统计学差异的惊喜局面:
单因素、多因素结果矛盾这种情况的大概原因包括:
(1)多因素回归自变量个数太多,样本量不够,建模失败
(2)存在着混杂变量
(3)存在着中介变量
(4)存在着交互效应
(5)排除中介变量后,存在着其它多重共线性,主要的原因是存在着混杂变量和中介变量。
那单因素、多因素结果矛盾如何处理:
最重要的是,在多因素回归分析之前,厘清好各变量的因果关系。借助DAG的方法能够形成相应的因果网络。但是,DAG构建并不是那么容易,更多的时候,我们需要借助统计方法,来绘制DAG的连接线。我推荐的方法是,“两因素建模法”和“去因素建模法”来探索自变量为什么先单后多结果不一致。两种方法原理相似,他们的关系如同逐步回归法中的“向前逐步”和“向后逐步”方法。也非常容易理解。
总之,即使P值没有统计学意义,从文献和目前知识来分析,可能是风险因素,那也可以选它进一步分析,反之,即使P值有统计学意义,按照目前知识,可能不会影响疾病,则也不用选它进一步分析。
logistic回归分析小结
1.在进行二分类Logistic回归(包括其它Logistic回归)分析前,如果样本不多而变量较多,建议先通过单变量分析(t检验、卡方检验等,其实就是差异分析)考察所有自变量与因变量之间的关系,筛掉一些可能无意义的变量,再进行多因素分析,这样可以保证结果更加可靠。即使样本足够大,也不建议直接把所有的变量放入方程直接分析,一定要先弄清楚各个变量之间的相互关系,确定自变量进入方程的形式,这样才能有效的进行分析。
2.经过单因素分析后,应当考虑应该将哪些自变量纳入Logistic回归模型。一般情况下,建议纳入的变量有:(1)单因素分析差异有统计学意义的变量(此时,最好将P值放宽一些,比如0.1或0.15等,避免漏掉一些重要因素);(2)单因素分析时,没有发现差异有统计学意义,但是临床上认为与因变量关系密切的自变量。
3.此外,对于连续变量,如果仅仅是为了调整该变量带来的混杂(不关心该变量的OR值),则可以直接将该变量纳入Logistic回归模型;如果关心该变量对因变量的影响程度(关心该变量的OR值),一般不直接将该连续变量纳入模型,而是建议将连续变量转化为有序多分类变量后纳入模型。这是因为,在Logistic回归中直接纳入连续变量,那么对于该变量的OR值的意义为:该变量每升高一个单位,发生结局事件的风险变化(比如年龄每增加1岁,患心脏病的风险增加1.115倍),这种解释在临床上大多数是没有意义的。
参考:《临床医学研究中的统计分析和图形表达实例详解》
欢迎关注我,让你身边多一位熟悉统计分析方法的帮手,有以下付费视频或服务可供选购:
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。