对于含缺失值或特殊值相关性计算

1.极端值会影响pearson correlation的计算,比如用-999999替代缺失值,计算pearson会产生很大的偏差
2.这个时候用spearman rank correlation会好很多,因为-999999和-1算rank的话都是1
3.我之前因为受到-999999影响,有几个本身相关的变量,计算出来pearson不相关,用spearman后显现出来正确的相关性
4.其实话说回来pearson和spearman缺失值都用-1并不精准,因为要根据变量具体的含义来,如果变量缺失可以用0替代,没问题,如果这种缺失我们可以推测大多都是均值附近,这个时候就产生偏差,所以完美解决这个问题,应该是用非特殊值的交集计算相关系数。另外缺失和非缺失可以抽象成0和1再次计算一个pearson,可以知道A缺失和B缺失是否存在关联。

留言

熱門文章