• R语言、SAS潜类别(分类)轨迹模型LCTM分析体重指数 (BMI)数据可视化


    原文链接:http://tecdat.cn/?p=26105 

    原文出处:拓端数据部落公众号

    潜类别轨迹建模 (LCTM) 是流行病学中一种相对较新的方法,用于描述生命过程中的暴露,它将异质人群简化为同质模式或类别。然而,对于给定的数据集,可以根据类的数量、模型结构和轨迹属性得出不同模型的分数。

    本文说明了LCTM的基本用法,用于汇总拟合的潜在类轨迹模型对象的输出。要安装 R 包,请在 R 控制台中使用命令

    例子

    目的:通过将 BMI 建模为年龄函数,识别具有不同轨迹的参与者亚组。根据迄今为止可用的文献,我们假设初始 K=5 类 BMI 轨迹。

    我们使用体重指数 (BMI) 重复测量 10,000 个人的长格式数据框。

    提供了一个示例(模拟)数据集 bmi 来描述整个步骤,  bmi_long 是长格式版本。

    包含的变量有:

    id - 个人 ID
    年龄 - BMI 测量的年龄,以年为单位
    bmi - 个人在 T1、T2、T3 和 T4 时间的体重指数,以 kg/m^2 为单位 true_class - 用于识别模拟个人 BMI 数据的类别的标签从

    加载数据

    绘制数据

    潜在类轨迹建模的八步示例

    为了对纵向结果 yijk 进行建模,对于 k=1:K,类,对于个体 i,在时间点 j,tj可以使用许多建模选择。我们在这里给出方程来说明这些,并按照复杂度增加的顺序将它们命名为模型 A 到 G。

    模型 A:无随机效应模型 | 固定效应同方差 | - 解释个人轨迹与其*均类轨迹的任何偏差仅是由于随机误差

    其中假设所有类的残差方差相等,

    模型 B:具有特定类别残差的固定效应模型 | 异方差 | 与模型 A 相同的解释,随机误差在不同的类别中可能更大或更小。

    其中假设残差方差不同

    模型 C:随机截距 解释是允许个体的初始体重不同,但假设每个班级成员遵循*均轨迹的相同形状和大小

    对于 k=1:K, classes, 对于个体 i, 在时间点 j, tj,

     其中随机效应分布

    模型 D:随机斜率 允许个体在初始权重和*均轨迹的斜率上有所不同,但曲率与轨迹

    对于 k=1:K,类,对于个体 i,在时间点 j , tj,

    其中假设随机效应分布为

    模型 E:随机二次 - 跨类的共同方差结构 允许个体在类内通过初始权重、形状和大小变化的额外自由,但是假设每个类具有相同的变异量 R lcmm hlme/lcmm 对于 k=1: K, 类, 对于个体 i, 在时间点 j, tj,

    其中假设随机效应分布为 

    模型 F 和 G:随机二次 - 允许方差结构跨类变化的比例约束 增加模型 E 的灵活性,因为允许方差结构相差一个乘法因子,以允许某些类具有更大或更小的类内方差。该模型可以被认为是模型 G 的更简洁版本(将要估计的方差-协方差参数的数量从 6xK 参数减少到 6+(K-1)个参数。

    对于 k=1:K, classes, 对于个体 i, 在时间点 j, tj,

    其中假设随机效应分布为 

    第一步:选择随机效应结构的形式

    为了确定随机效应的初始工作模型结构,可以遵循 Verbeke 和 Molenbergh 的基本原理来检查没有随机效应的模型中每个 K 类的标准化残差图的形状。

    如果残差轮廓可以*似为*坦、直线或曲线,则分别考虑随机截距、斜率或二次项。

    为了拟合没有随机效应的潜在类模型。

    1.  
      hlmfixed(bmig)
    2.  
       
    3.  
       

    然后,我们将拟合模型输入 LCTM中的 step1 函数,以检查特定类别的残差。

    第2步

    优化步骤 1 中的初步工作模型以确定最佳类数,测试 K=1,...7。可以根据最低贝叶斯信息标准 (BIC) 来选择所选类别的数量。

    1.  
      set.seed(100)
    2.  
       
    3.  
       
    4.  
      for (i in 2:4) {
    5.  
      mi <- lchlme( data.frame(bmg[1:500,])
    6.  
       
    7.  
      }
    8.  
      #> Be patient, hlme is running ...
    9.  
      #> The program took 0.29 seconds
    10.  
      #> Be patient, hlme is running ...
    11.  
      #> The program took 0.69 seconds
    12.  
      #> Be patient, hlme is running ...
    13.  
      #> The program took 2.3 seconds
    14.  
       
    15.  
      modelut <-kable(lin)

    第 3 步

    使用步骤 2 中推导出的偏好 K 进一步细化模型,测试最优模型结构。我们测试了七个模型,从简单的固定效应模型(模型 A)到允许残差在类别之间变化的基本方法(模型 B)到一组具有不同方差结构的五个随机效应模型(模型 CG)。  
     

    • A(SAS、PROC TRAJ)

    ​​​​​​​

     
     

    • B型(R,mmlcr)

    ​​​​​​​调用 source() 命令。

    1.  
      mmldata = bmi_l01
    2.  
      # )
    # model_b$BIC

     
     

    • C (SAS、PROC TRAJ)

    • D 型(SAS、PROC TRAJ)

    • E型 (R, lcmm)
    1.  
      model_e <- hlme(fixed = bmi ~1+ age + I(age^2),
    2.  
      mixture = ~1 + age + I(age^2),
    3.  
      random = ~1 + age,
    4.  
      ng = 5, nwg = F,
    5.  
      idiag = FALSE,
    6.  
      data = data.frame(bmi_long[1:200,]),
    7.  
      subject = "id")
    8.  
      #> Be patient, hlme is running ...
    9.  
      #> The program took 0.77 seconds
    model_e$BIC
    

     

    • F型 (R, lcmm)
    1.  
      fixed = bmi ~1+ age + I(age^2),
    2.  
      mixture = ~1 + age + I(age^2)
    mod$BIC
    

     

    • G (SAS、PROC TRAJ)

    第四步

    执行一些模型充分性评估。首先,对于每个参与者,计算被分配到每个轨迹类的后验概率,并将个体分配到概率最高的类。在所有类别中,这些最大后验分配概率 (APPA) 的*均值高于 70% 被认为是可以接受的。使用正确分类、不匹配的几率进一步评估模型的充分性。

    LCTMdel_f 
    

    第 5 步

    图形表示方法;

    1. 绘制包含每个类的时间*均轨迹

    2. 每个类具有 95% 预测区间的*均轨迹图,显示每个类内预测的随机变化

    1.  
      plotpred <- predictY
    2.  
      plototp

    1. 个人水*的“面条图”随时间变化,取决于样本量,可能使用参与者的随机样本
    1.  
       
    2.  
      ggplot(bm, aes(x = age, y = bmi)) + geom_line

    1.  
       
    2.  
      ggplot(bmong) + geom_line

    第 6 步

    评估模型辨别。

    第 7 步

    使用四种方法评估临床特征和合理性;

    1. 评估轨迹模式的临床意义,旨在包括至少 1% 的人群的类别

    postprb( modf )
    

    2. 评估轨迹类别的临床合理性

    使用 6.2中生成的图 来评估预测的趋势对于正在研究的组是否现实。例如,对于研究 BMI,显示下降到 <5 kg/m2 的预测趋势是不现实的。  
     

    3. 潜在类别与传统分类的特征列表

    使用从所选模型中提取类分配;​​​​​​​

    然后用描述性变量反馈到主数据集中。

    然后可以根据需要将这些制成表格。​​​​​​​

    等等。

    4. 使用 kappa 统计的类成员与传统 BMI 类别成员的一致性

    1.  
      # 定义BMI类别,这些类别的数量需要与类别的数量相等
    2.  
      confusionMatrix(bmi_class, bmclass
    3.  
      kable(y, row.names = )

    第 8 步

    酌情进行敏感性分析。


    最受欢迎的见解

    1.R语言多元Logistic逻辑回归 应用案例

    2.面板*滑转移回归(PSTR)分析案例实现

    3.matlab中的偏最小二乘回归(PLSR)和主成分回归(PCR)

    4.R语言泊松Poisson回归模型分析案例

    5.R语言混合效应逻辑回归Logistic模型分析肺癌

    6.r语言中对LASSO回归,Ridge岭回归和Elastic Net模型实现

    7.R语言逻辑回归、Naive Bayes贝叶斯、决策树、随机森林算法预测心脏病

    8.python用线性回归预测股票价格

    9.R语言用逻辑回归、决策树和随机森林对信贷数据集进行分类预测

  • 相关阅读:
    SQL Server 2012本地发布、订阅及相关问题的解决方案
    微信小程序——try {} catch (e) {}
    C# .net 填充无效,无法被移除 微信小程序解密失败的解决办法
    功能测试--H5测试点
    功能测试--指纹识别测试点
    功能测试--二维码测试点
    功能测试--登录测试点
    功能测试--计步测试点
    功能测试--投票测试点
    功能测试--签到测试点
  • 原文地址:https://www.cnblogs.com/tecdat/p/16095761.html
Copyright © 2020-2023  润新知