偏度和峰度

3月 04, 2022

偏度和峰度

描述性统计量中有个偏度skewness和峰度kurtosis，这两个描述性统计量可否用于特征工程中呢？

1、偏度

偏度是随机变量标准化后的三阶原点矩，即

从这个公式就不难看出，如果偏度为正，那么尾在右边，称为右偏分布，偏度为负，那么尾在左边，称为左偏分布。我以前对右偏和左偏的理解是错误的，我以前觉得从图像上，波峰相对于中间位置偏右是右偏，波峰相对于中间位置偏左是左偏。一种正确的理解是，均值偏离众数的方向，均值在众数左边，是左偏，均值在众数右边是右偏。

大多数讲解偏度的例子用的是类似正态分布的例子，我自己构造了一个U形分布，也是符合以上的理解的

我用两个正态分布各一半组成了该U形分布，一个是期望为5，标准差为1的正态分布右半部分，另一个是期望为10，标准差为1.5的正态分布的左半部分，众数大概在5的右边，均值是7.27，均值位于众数的右边，这是一个右偏分布，偏度等于0.18。

但是当我构造出对称U形分布的时候，这种理解就讲不通了

这个时候偏度是接近于0的，5右边和10左边都是众数，这种情况即没右偏也没左偏，是对称的。

所以一种更直接的理解是，尾在右是右偏，尾在左是左偏，对于U形分布，相当于有两个峰，矮的峰就可以视为尾。

偏度是描述了分布的一种特征，大体上，就是三种特征，左偏，右偏，对称，偏度数值大小表征了偏离的程度，视觉上讲就是不对称的程度。如果作为描述统计特征好解释吗？比如就是每个月查询次数，如果偏度接近于0，那么有可能他每个月查询次数是一个均匀分布，有可能是一个正态分布，也有可能是两极分化，都有可能。如果偏度 > 0，那么查询数是集中在低次数区间，少部分月查询次数较多，但这个低次数和高次数在这个人的层级上相对的（这个人自身内部和均值比较得到的相对高与低）。所以这个作为单变量，还是不太好解释，可能在树模型中会比较有利用价值，特征工程中可以作为充数的变量。

2、峰度

峰度是随机变量标准化后的四阶原点矩，也等价于四阶中心矩比上二阶中心矩（方差）的平方，即

关于峰度，网上大多数资料都是用一个类正态分布去讲解，我现在不太明确非对称分布，峰度的意义，这里可能要放一放，所以暂时不制作峰度类特征。

但有一点可以确定，峰度和偏度，无论什么分布的随机变量都可以去计算，只要标准化后有4阶/3阶原点矩。

搜尋此網誌

Silver Death

偏度和峰度

留言

張貼留言

熱門文章

把cell从一个notebook复制到另一个notebook

python调用win32api设置窗口位置和大小