关于模型替换了一个变量,相关性问题的陷阱

我有一个模型,其中有一个叫edu的变量,现在我用一个叫smart的变量替换掉这个edu变量,refit一个新模型,两个都是评分卡模型,其他变量的woe groups没变,这个时候需要推断新模型的通过率。
这里我陷入了一个陷阱,我开始认为
如果edu和smart相关性强,则edu分布好,那smart分布也好
如果edu和smart相关性弱,则edu分布好,那smart分就不能好
红色部分存在错误,edu分布好,smart分布也可能好,因为相关性是固定每一个样本点,两个变量同大同小(负相关是大对应小),趋势相同才相关性强;相关性弱,可能两个变量分布都好,只是变化上没什么规律。
所以当smart和edu相关性强,我们知道新模型通过率类似于旧模型,当两个变量无相关性,那新模型的通过率就无法确定!

留言

熱門文章