logistic和probit原理层面的区别

logistic回归和probit回归都是假定存在一个潜变量y* = βx + e(这个就是线性回归的形式),有y* > 0 <-> y = 1,y* <= 0 <-> y = 0。
那么观测是1的概率就是
P(y=1) = P(βx+e > 0) =  P(e > -βx),这里又有一个假定,误差项e是服从什么分布,如果服从标准logistic分布,就对logistic分布的PDF从-βx到正无穷积分,如果是服从标准normal分布,就对normal分布的PDF从-βx到正无穷积分,前者就是logistic regression,后者就是probit regression。PDF从-βx到正无穷积分,由PDF的对称性可知,就等价于负无穷到βx积分,所以
P(y=1) = P(βx+e > 0) =  P(e > -βx) = G(βx),G就是累积分布函数。
总结起来,潜变量是一种假定,误差项分布也是一种假定,误差项属于什么分布,就是假定中的推理,基于这些种种假定,有了logistic回归和probit回归,最终按这些假定能拟合出不错的模型,那就得了,至于这些假定合理不合理,在这个场景下似乎重要性并不高(其实我觉得这种假定也有一定合理性)。和回归中假定yi的分布,还不太一样,假定yi的分布是有实际意义的(假定yi的分布,得到似然函数,负对数似然函数做损失函数),选择接近的分布的损失函数做出来模型效果会更好,我实验的结果。

留言

熱門文章