v76在有偏sample上通过率高于v77,可否推断出进件总体通过率也如此

V77、V76模型是同一个trainset,只有一个变量不同,smart和edu,他们在一个有偏testset上,旧模型通过率高于新模型能否推断出进件总体通过率也是如此?假设进件总体客群无变化。
无法推测
举一个特例,当新模型和审批时模型完全相同,审批模型之前阈值是10%,这个时候新模型划到5%,那么在testset上通过率就是50%;另外一个新模型,新模型和审批时模型完全无关系,完全新的一套变量,且变量分布不受到上个审批模型审批影响,和进件分布完全一样,在testset上8%的通过率,还原到进件总体也是8%,而第一个新模型还原到进件总体只有5%。
具体到v76和v77,只有一个变量不同,和原来审批系统的相关性应该是差不多的(根据我对两个不同变量的了解),所以说本质是 有偏sample 造成了不能推测总体。


留言

熱門文章