不同分布的特征经standardization后的range
算最近邻的时候是用normalization好,还是standardization好?
normalization后,每个特征的feature都是0到1
standardization后,每个特征没有一个固定的上下界
我通过实验的方式探究了下standardization后feature的range
col_A是p = 0.1的伯努利分布
col_B是tweedie分布
col_C是90000到100000的均匀分布
进行standardization
经过standardization后,各个feature的range
可以看到
col_A_std的范围是(-0.32,3.15)
col_B_std的范围是(-0.70,5.24)
col_C_std的范围是(-1.73,1.68)
综上,standardization后确实range范围不一,那么在计算欧式距离时仍然会存在问题(虽然经过standardization后数据量级的差距并不算大),所以在进行KNN或者distance-based算法的时候进行归一化normalization是更好的。但是normalization比较容易受到离群点的影响,standardization受离群点的影响会小一些。
留言
張貼留言