原文链接:http://tecdat.cn/?p=14017
通常,我们在回归模型中一直说的一句话是“ 请查看一下数据 ”。
在上一篇文章中,我们没有查看数据。如果我们查看单个损失的分布,那么在数据集中,我们会看到以下内容:
看来我们的数据库中有固定成本索赔。在标准情况下,我们如何处理?我们可以在这里使用混合分布,
与
- 小额索赔的分布
- 狄拉克分布
- 分布
在上一篇文章中,我们讨论了所有参数可能与某些协变量相关的想法,即
产生以下模型,
对于概率,我们应该使用多项式模型。回忆一下逻辑回归模型,如果
即
要导出多元扩展
和
同样,可以使用最大似然,因为
在这里,变量
对于逻辑回归,然后使用牛顿拉夫森(Newton Raphson)算法在数值上计算最大似然。在R中,首先我们必须定义级别,例如
然后,我们可以定义一个多分类logistic模型回归
使用一些选定的协变量
输出在这里
为了可视化协变量的影响,还可以使用样条函数
例如,如果协变量是汽车的寿命,那么我们有以下概率
对于0到20岁的所有年龄段,
例如,对于新车,固定成本所占的比例很小(在这里为紫色),并且随着车龄的增长而不断增加。如果协变量是驾驶员居住地区的人口密度,那么我们获得以下概率
基于这些概率,可以在给定一些协变量(例如密度)的情况下得出索赔的预期成本。但首先,定义整个数据集的子集
阈值由
然后,让我们运行四个模型,
现在,我们可以基于这些模型计算预测,
为了可视化每个组成部分对溢价的影响,我们可以计算概率,预期成本(给定每个子集的成本),
现在,可以将这些数字绘制在图形中,
(水平虚线在我们的数据集中是索赔的平均费用)。
特别系列
精算科学
关于结合数学、统计方法以及程序语言对经济活动来做风险分析、评估的见解。
参考文献
2.R语言线性判别分析(LDA),二次判别分析(QDA)和正则判别分析(RDA)
5.在r语言中使用GAM(广义相加模型)进行电力负荷时间序列分析
6.使用SAS,Stata,HLM,R,SPSS和Mplus的分层线性模型HLM