y的分布和yi分布的关系

算似然函数,要得到pi,计算pi,要知道yi的分布,而我们能观测的就只有y的分布(把y1,y2,...,ym画出来形成的分布,m是样本容量),那么我们是否可以通过y的分布去推测yi的分布,我觉得从实践或intuition的角度是可以的,比如一个收入预测的情形,拿到的样本均值4000,右边长尾,xi是公积金缴存额1000,那么缴存1000的人他们收入也有一个分布,这个分布和y的分布是类似的,只是参数不同,我觉得make sense的,但是我们建模中假设更强,要求是仅仅均值不同的独立同分布。实践中,公积金缴存恰好1000的,我没这么多样本可观测,我取了公积金缴存额大于800的,画出分布,有更大的均值和标准差,但是和y分布的形态还是很像。

但从理论构造的角度,y的分布实际上是两个分布叠在一起形成的,(1)每个yi都有一个均值,这些均值有一个分布;(2)yi本身是其均值附近的一个随机值,yi也有一个分布。两个分布叠在一起,形成了最终观测到的样本的分布。所以我可以先按照tweedie分布构造出yi的均值,再用这个均值去构造若干正态分布,两个分布叠在一起就形成了形如这样的分布:

假设我先拿到这样一个分布,我推测yi是同样的分布,就不对。但这是理论构造。

这个问题也等价于从总体随机抽样的分布和根据某些特征(这些特征往往还具有一定的预测能力)作限制条件的抽样分布是否类似?

留言

熱門文章