statmodels中采用的系数检验方法

对于logistic regression的系数检验,H0是β_j = 0,β_j是第j个自变量的系数,构造统计量:
(β_j - 0)/standard_error,统计量满足z分布,其平方就满足自由度为1的卡方分布,又叫作Wald chi square统计量,statmodels的summary正是采用的Wald chi square test,以下图为例

z = (coef - 0)/std_err
P > |z|,这里表头会存在一些误导,我实际上比较了计算出来的p value,是和Z^2的p-value吻合的,表头精准表达应该是P > z^2,右侧检验。
比如倒数第5行
z = (-0.3775/0.214) = -1.764,-1.764和上图中的-1.766存在一定差异是精度问题造成的(我实际验证过),因为系数和std_err位数未显示全。

下图比较z检验的p-value和自由度为1的卡方检验的p-value

H列是statmodels的输出,L/O/P是自己计算,可以看到P列是等于H列的,可证明statmodels中采用的就是自由度为1的卡方检验。而Z检验的p-value和wald卡方统计量的p-value存在一定差异。



留言

熱門文章