偏度和峰度
描述性统计量中有个偏度skewness和峰度kurtosis,这两个描述性统计量可否用于特征工程中呢?
1、偏度
偏度是随机变量标准化后的三阶原点矩,即
从这个公式就不难看出,如果偏度为正,那么尾在右边,称为右偏分布,偏度为负,那么尾在左边,称为左偏分布。我以前对右偏和左偏的理解是错误的,我以前觉得从图像上,波峰相对于中间位置偏右是右偏,波峰相对于中间位置偏左是左偏。一种正确的理解是,均值偏离众数的方向,均值在众数左边,是左偏,均值在众数右边是右偏。
大多数讲解偏度的例子用的是类似正态分布的例子,我自己构造了一个U形分布,也是符合以上的理解的
我用两个正态分布各一半组成了该U形分布,一个是期望为5,标准差为1的正态分布右半部分,另一个是期望为10,标准差为1.5的正态分布的左半部分,众数大概在5的右边,均值是7.27,均值位于众数的右边,这是一个右偏分布,偏度等于0.18。但是当我构造出对称U形分布的时候,这种理解就讲不通了
这个时候偏度是接近于0的,5右边和10左边都是众数,这种情况即没右偏也没左偏,是对称的。所以一种更直接的理解是,尾在右是右偏,尾在左是左偏,对于U形分布,相当于有两个峰,矮的峰就可以视为尾。
偏度是描述了分布的一种特征,大体上,就是三种特征,左偏,右偏,对称,偏度数值大小表征了偏离的程度,视觉上讲就是不对称的程度。如果作为描述统计特征好解释吗?比如就是每个月查询次数,如果偏度接近于0,那么有可能他每个月查询次数是一个均匀分布,有可能是一个正态分布,也有可能是两极分化,都有可能。如果偏度 > 0,那么查询数是集中在低次数区间,少部分月查询次数较多,但这个低次数和高次数在这个人的层级上相对的(这个人自身内部和均值比较得到的相对高与低)。所以这个作为单变量,还是不太好解释,可能在树模型中会比较有利用价值,特征工程中可以作为充数的变量。
2、峰度
峰度是随机变量标准化后的四阶原点矩,也等价于四阶中心矩比上二阶中心矩(方差)的平方,即
关于峰度,网上大多数资料都是用一个类正态分布去讲解,我现在不太明确非对称分布,峰度的意义,这里可能要放一放,所以暂时不制作峰度类特征。但有一点可以确定,峰度和偏度,无论什么分布的随机变量都可以去计算,只要标准化后有4阶/3阶原点矩。
留言
張貼留言