Kendall秩相关系数

Kendall秩相关系数也是考察两个column间的相关性。

计算方法是:

1、按照其中一个column升序排序

2、这个时候另外一个column可能就是乱序的

比如两个column分别是身高和体重,按身高升序排序,这个时候weight是乱序的

Person
A
B
C
D
E
F
G
H
Rank by Height
1
2
3
4
5
6
7
8
Rank by Weight
3
4
1
2
5
7
8
6

同序对的概念:A的两个序数1和3,E两个序数5和5,A的两个序数均小于E的两个序数,那么这是一个同序对,A一共的同序对有AB、AE、AF、AG、AH,共5个同序对。然后再依次考察BC、BD、BE、BF、BG、BH
异序对的概念:A一共是有7个对,AB\AC\AD\AE\AF\AG\AH,7减去5个同序对,就是异序对2个,然后再依次考察B\C\D...
总对数的概念:总对数,就是样本点之间的对数,8个样本点就是 8*7/2,

Kendall相关系数 = (同序对-异序对)/总对数
上面的例子依次考察A到G,同序对为5+4+5+4+3+1+0 = 22,总对数28,那么异序对是28-22 = 6
所以Kendall相关系数 = (22-6)/28 = 57%
完全排序相同 Kendall相关系数 为1
完全排序相反 Kendall相关系数 为-1
排序完全独立 Kendall相关系数 为0

实际应用的时候可以用df.corr(method='kendall')























留言

熱門文章