我在拟合离散分布函数时遇到了一些困难(我特别使用负二项分布)。下面是我的设置:我有一个传入项的来源,每个项的生命周期都是未知的。每天都有一些过期(第一天很大一部分,第二天更多,等等)。对于现有的来料源(源大于180天),我已经成功地将具有负二项分布的新物料的寿命建模为可接受的误差(使用MLE -最大似然估计)。
我的问题始于传入项目的新来源。我想在短时间后(比如5-7天后)估计他们物品的寿命分布。当我尝试应用MLE时,我得到了明显较低的平均值(即3而不是30)。我假设这是因为MLE不能理解前一天(第7天)的质量实际上是1-CDF(6) (前6天的累积分布函数),并且实际上也包含有生命的物品。
是否有一种好的方法来仅基于早期数据值和其他值的总和来拟合离散分布?我可以为它写一些优化函数,只给前6天的权重,但我觉得它会给我次优的性能。
我对理论解释没意见,但如果你能处理特定的函数或库,我可以用Matlab,R,Python和C#。
发布于 2014-01-07 06:53:00
你遇到的问题被称为“被审查的”数据。从本质上说,你只知道某些项目的生命周期大于(现在减去开始时间)。你对如何修正似然函数的猜测指向了正确的方向。我认为,在关于生存分析的文本中,通常会考虑删除的数据。维基百科的第一篇文章中有一些关于审查数据的简短评论,可能也会有所帮助。
在R中有一个用于生存分析的包,名为“存活包”。可能还有其他的R包。不知道其他系统的包。
1
https://stackoverflow.com/questions/20932561
复制相似问题