变异系数CV如果存在负数该如何应对

变异系数的目的是去除量级的影响,比如第一组数据std1 = 10,mean1 = 100;第二组数据std2 = 10000,mean2 = 100000,如果要比较两组数据的散布程度,直接比较std的话,就是第二组散布程度更大,但这显然不make sense,因为第二组数据的量级大很多,这样比较不公平,我们以mean来表征这组数据的大概量级,那么就有了变异系数的出现
cv1 = std1/mean1,cv2=std2/mean2,这就消除了量级的影响。
但是如果1组数据中存在负值,和正值抵消就不能带出量级的信息,极端的情况,恰好均值为0,或者均值为负数、均值是一个很小的正数如0.0001,量级的信息就被正负抵消所消耗掉了,所以我个人认为,变异系数要有意义的话,1组数据中不能出现异号的情况,要不然全部>=0,要不然全都<=0(算出来的CV取绝对值便可),如果一组数据全为0,可以单独定义变异系数就为0

留言

熱門文章