收入模型通过rank order后观察平均值的方法错误分析

做类似收入这样的回归模型的时候,我的前领导有一种分析办法,经过讨论,我认为是错误的。
1.这个方法是模型预测值输出rank order,然后分成比如20份,每一份求avg(yi),把20个点连起来成一条折线,然后rank order后,每一份也存在一个平均值avg(yi_hat),把20个预测点平均值连起来也是一条折线,如果这两条线越重合,那么说明模型越好,陷阱就在这里,因为用的是平均值,有可能其中的实际偏差很大,平均值却是一样的。无论是以真值rank order还是预测值rank order,都是错误的,都不能说明问题。而且前领导还说可以按照这两条线来修正,加一点儿,减一点。
2.如果是要看趋势,MAE RMSE自然就能体现趋势了,如果MAE很小,按真值rank order形成一条线,这个时候预测线的趋势依然好
3.这种合并的最大问题就是正负偏差抵消
4.所以回归模型就是看这些MAE RMSE

这里留一个坑,平均5000的样本,MAE 2000,同事说预测值大概范围是5000±2000?或者说怎么感性去衡量这个MAE 2000,不和其他模型比较的话?

留言

熱門文章