关于相关性的几个统计量 在数据的统计分析中经常需要判断两个统计量之间的相关性是否显著,特别地,在大数据时代,相关性比因果性受到了更多的关注和讨论。那么如何判断两个统计量之间的相关性呢?在我们最近的工作中用到了Pearson系数、Spearman系数、Point-biserial相关系数和Biserial相关系数,其中前二者和后二者分别成对。这两组相关系数的区别和联系如下: l 关于Pearson相关系数和Spearman相关系数 二者的区别在于:前者是product-moment correlation,基于均值和标准差,度量的是两个变量之间的线性相关性,并且默认变量服从正态分布;而Spearman是基于排序的rank correlation,则没有这个限制,属于非参数统计方法,对原始变量分布不作要求,可以度量变量之间的非线性相关性。故在使用前应先考察各个变量的概率分布,绘制散点图观察两个变量之间的关联性,再选择合适的度量指标。 l 关于Point-biserial相关系数和Biserial相关系数 Point-biserial correlation coefficient用于度量一个自然区分的二元变量和一组间隔尺度之间的相关程度,例如学生的性别(0-1,自然区分)和成绩(离散变量)之间的相关性;而 Biserial correlation coefficient 用于度量一个人工区分的二元变量和一组间隔尺度之间的相关程度,例如中期考核(离散变量百分制)和期末成绩(分ABCDE,A-D为通过,E为不通过,人工区分)。 l 几种相关系数 Types of Correlation Coefficients | | | | Both scales interval (or ratio) | | | | Both scales are naturally dichotomous (nominal) | | Both scales are artificially dichotomous (nominal) | | One scale naturally dichotomous (nominal), one scale interval (or ratio) | | One scale artificially dichotomous (nominal), one scale interval (or ratio) | | One scale nominal, one scale ordinal |
资料: 机器学习中的相似性度量:
|