在上一期,我们已经讲完了线性相关分析的基础知识,这期开始讲线性相关,我们主要从线性相关分析介绍、使用条件及案例的SPSS操作演示这几方面进行讲解。
线性相关分析介绍
两个随机变量X.Y之间呈线性趋势的关系称为线性相关(linear correlation),又称简单相关(simple correlation),其统计学指标为 Pearson 积矩相关系数(Pearson product moment coefficient) 。
进行直线相关分析前,必须先作散点图,以初步判断两变量之间是否存在相关趋势,该趋势是否为线性趋势,以及数据中是否存在异常点。
相关分析不一定是因果关系,如某对夫妇生儿种树,儿长树高,相关关系有统计学意义,可两者并非因果关系,是由于时间变量与两者的潜在联系,造成了身高与树高相关的假象。两变量之间相关系数有统计学意义,欲下因果关系的结论,还需从专业角度作进一步研究。
Pearson相关系数用于描述线性相关,其数值介于-1到1之间,当两变量相关性达到最大, 散点呈一条直线时取值为-1或1,正负号表明了相关的方向;如两变量完全无关,则取值为0。
线性相关性分析使用条件
线性相关性分析通常基于Pearson相关系数,该方法的适用条件包括:
1.线性关系:线性相关性分析假设变量之间存在线性关系。如果关系是非线性的,其他方法如Spearman等级相关系数可能更适用。
2.正态分布:Pearson相关系数的可靠性要求数据服从正态分布。对于非正态分布的数据,可以考虑使用非参数方法或转换数据以满足正态性假设。
3.连续变量:Pearson相关系数适用于连续变量。对于分类变量,可以使用切比雪夫距离或Phi系数等方法。
4.线性独立性:相关性分析假设变量是线性独立的。如果存在共线性,即一个变量可以通过其他变量的线性组合表示,相关系数可能不准确。
5.等间隔数据:Pearson相关系数要求变量之间具有等间隔的测量水平。如果数据是有序的,但间隔不等,Spearman等级相关系数可能更合适。
6.足够的变异性:较小的变异性可能导致相关性分析结果不够可靠。当变量的变异性较小时,相关系数可能受到极端值的影响。
7.线性相关性检验的选择:在进行线性相关性分析之前,建议进行线性相关性的显著性检验,以确保所观察到的相关性不是由于偶然引起的。这通常涉及对相关系数的显著性进行假设检验。
8.大样本:在小样本中,相关系数的估计可能不够稳定。在这种情况下,考虑使用Spearman等级相关系数或其他鲁棒性更好的方法。
案例的SPSS操作演示
分析示例
某地一项膳食调查中,随机抽取了14名40~60岁的健康妇女,测得每人的基础代谢 (kJ/d) 与体重(kg) 数据,试分析这两项指标间有无关联?
研究假设
研究问题:基础代谢与体重的直线相关系数。
数据录入
1. 变量视图
名称 x1 标签 基础代谢
名称 x2 标签 体重
2.数据视图
操作流程
(一)操作流程(预分析)
1.图形画板模板选择程序是一个傻瓜式的操作界面,下图的基本界面是用来设定入选变量和图形,多个变量的选择需要按计算机键盘上的CTRL 键,此处同时选择基础代谢和体重两 个变量,右侧则选择需要的散点图。
2.详细对话框需要设定X 轴和Y 轴,如果按照默认,图形X 轴为基础代谢,Y 轴为体重, 因此我们需要重新设置,将X 轴设为体重,Y 轴设为基础代谢。
结果解释
在探索相关性分析的过程中,散点图发挥着举足轻重的作用。在深入分析之前,绘制散点图是不可或缺的步骤,它能让我们初步洞察两个变量间是否存在某种关联趋势,这种趋势是否为直线型,以及数据中是否潜藏着异常值。若跳过散点图直接分析,可能会误入歧途,得出误导性的结论。如下图所示,基础代谢相近的个体,体重却参差不齐。但总体趋势显示,体重与基础代谢似乎呈正比,即体重增加时,基础代谢也随之上升,反之亦然,暗示两者间或许存在着线性相关的联系。
(二)操作流程(正式分析)
1.下图为对话框中相关系数的三个选项,主要体现在对两个变量的要求不同:
(1)Pearson: 又称线性相关系数(linear correlation coefficient),是定量表述两个连续变量间 线性关系密切程度和相关方向的统计指标。
(2)Kendall的tau-b(K) 和 Spearman: 两者均为等级相关。
结果解释
上述分析揭示,Pearson相关系数高达0.964,这一数字蕴含着双重意义。一方面,它直观展现了两个变量间的关联强度,其绝对值介于0至1之间,数值愈接近极限,相关性便愈发显著;另一方面,它以正数形式昭示了相关性的方向,0.964的正值无疑宣告了两变量间的正相关关系,意味着体重的增长伴随着基础代谢的提升。此外,该相关系数经过双侧检验,P值小于0.01,证明了其统计上的显著性。
Pearson相关系数,作为衡量线性相关性的标尺,其取值范围自-1至1。当两变量间存在完美的线性关系时,它便触及这两个极端值,符号则揭示了关系的正负向;而若两变量毫无瓜葛,它便归零。
参考:《临床医学研究中的统计分析和图形表达实例详解》
欢迎关注我,让你身边多一位熟悉统计分析方法的帮手,有以下付费视频或服务可供选购:
1.单个问题答疑咨询。1对1答疑、小额付费、48小时内有效。
2.答疑咨询年度会员。一年365天时限内各种统计分析问题1对1答疑,性价比高。
3.购买视频课程赠送课程相关主题内容1对1答疑1年。