• R语言代写生存分析可视化分析


    完整原文链接:http://tecdat.cn/?p=5438

    生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。

    生存分析被用于各种领域,例如:

    癌症研究为患者生存时间分析,

    “事件历史分析”的社会学

    在工程的“故障时间分析”。

    在癌症研究中,典型的研究问题如下:

    某些临床特征对患者的生存有何影响?

    个人三年存活的概率是多少?

    各组患者的生存率有差异吗?

     

    基本概念

    在这里,我们从定义生存分析的基本术语开始,包括:

    生存时间和事件

    生存功能和危险功能

    癌症研究中的生存时间和事件类型

    有不同类型的事件,包括:

    复发

    死亡

    从“应对治疗”(完全缓解)到发生感兴趣事件的时间通常称为生存时间(或事件发生的时间)。

    癌症研究中两个最重要的措施包括:i)死亡时间;和ii)无复发存活时间,其对应于治疗反应与疾病复发之间的时间。它也被称为无病生存时间和无事件生存时间

    如上所述,生存分析侧重于直到发生感兴趣事件(复发或死亡)的预期持续时间。

    Kaplan-Meier生存评估

    Kaplan-Meier(KM)方法是一种非参数方法,用于估计观察到的生存时间的生存概率(Kaplan和Meier,1958)。

    知识管理生存曲线是知识管理生存概率与时间的关系曲线,它提供了一个有用的数据总结,可以用来估计诸如中位生存时间之类的衡量指标。

    R生存分析

    安装并加载所需的R包

    我们将使用两个R包:

    生存计算生存分析

    survminer的总结和可视化生存分析结果

    安装软件包
    
    install.packages(c("survival","survminer"))
    
    加载包
    
    library("survival")library("survminer")

    示例数据集

    我们将使用生存包中提供的肺癌数据。

    data("lung")head(lung)
    
    inst time status age sex ph.ecog ph.karno pat.karno meal.cal wt.loss1    3  306      2  74  1      1      90      100    1175      NA2    3  455      2  68  1      0      90        90    1225      153    3 1010      1  56  1      0      90        90      NA      154    5  210      2  57  1      1      90        60    1150      115    1  883      2  60  1      0      100        90      NA      06  12 1022      1  74  1      1      50        80      513      0

    inst:机构代码

    时间:以天为单位的生存时间

    状态:审查状态1 =审查,2 =死亡

    年龄:年龄

    性别:男= 1女= 2

    ph.ecog:ECOG表现评分(0 =好5 =死)

    ph.karno:Karnofsky表现评分(bad = 0-好= 100)由医师评定

    pat.karno:Karnofsky表现评分由患者评估

    膳食:餐时消耗的卡路里

    wt.loss:过去六个月的体重下降

    计算生存曲线:survfit()

    我们要按性别来计算生存概率。

    功能survfit()[在存活包]可以被用来计算Kaplan-Meier存活估计。其主要论​​点包括:

    使用函数Surv()创建的生存对象

    要计算生存曲线,请输入以下内容:

    fit<-survfit(Surv(time,status)~sex,data=lung)print(fit)
    
    Call: survfit(formula = Surv(time, status) ~ sex, data = lung)n events median 0.95LCL 0.95UCLsex=1 138    112    270    212    310sex=2  90    53    426    348    550

    默认情况下,函数print()显示生存曲线的简短摘要。它显示观察次数,事件数量,中位数生存和中位数的置信限。

    如果要显示生存曲线的更完整摘要,请输入以下内容:

    # Summary of survival curvessummary(fit)# Access to the sort summary tablesummary(fit)$table
    
    

    可视化生存曲线

    我们 生成两组受试者的生存曲线。


    legend.labs更改图例标签。


    每组的中位生存时间表示生存概率S(t)为0.5的时间。

    使用参数xlim可以缩短生存曲线,如下所示:


    请注意,可以使用参数fun指定三个经常使用的转换:

     

    累积性危险是常用来估计危险概率。

     ​、

    Kaplan-Meier生命表:生存曲线的总结

    如上所述,您可以使用函数summary()来获得生存曲线的完整摘要:

    summary(fit)
    
    

    在生存曲线已经与一个或多个变量拟合的情况下,surv_summary对象包含表示变量的额外列。这使得有可能根据地层或某些因素的组合来面对ggsurvplot的输出。

     

    Log-Rank检验比较生存曲线:survdiff()

    数秩检验是比较两条或更多条生存曲线的最广泛使用的方法。零假设是两组在生存期间没有差异。 

    可以使用survdiff()如下:

    surv_diff<-survdiff(Surv(time,status)~sex,data=lung)surv_diff
    
    Call:survdiff(formula = Surv(time, status) ~ sex, data = lung)N Observed Expected (O-E)^2/E (O-E)^2/Vsex=1 138      112    91.6      4.55      10.3sex=2  90      53    73.4      5.68      10.3Chisq= 10.3  on 1 degrees of freedom, p= 0.00131

    存活率差异的对数秩检验给出p = 0.0013的p值,表明性别组在存活方面差异显着。

     复杂的生存曲线

    在本节中,我们将使用多个因素的组合计算生存曲线。接下来,我们将面向ggsurvplot()的输出结合因素

     fit2<-survfit(Surv(time,status)~sex+rx+adhere,data=colon)

    使用幸存者可视化输出。下面的图显示了性别变量根据rx&adhere的值生存的曲线。

     

    生存分析对应于一组统计方法,用于调查感兴趣事件发生所花费的时间。

    生存分析被用于各种领域,例如:

    癌症研究为患者生存时间分析,

    “事件历史分析”的社会学

    在工程的“故障时间分析”。

    在癌症研究中,典型的研究问题如下:

    某些临床特征对患者的生存有何影响?

    个人三年存活的概率是多少?

    各组患者的生存率有差异吗?

     

      

    概要

    生存分析是一组数据分析的统计方法,其中感兴趣的结果变量是事件发生之前的时间。

    在这篇文章中,我们演示了如何使用两个R软件包的组合来执行和可视化生存分析:生存(用于分析)和生存者(用于可视化)。

    如果您有任何疑问,请在下面发表评论。   

  • 相关阅读:
    cin 文件结束符
    C++ 代码折叠
    QTP/UFT 11.51 发布,支持Windows8和IE10等新特性
    QTP11.5测试手机 UFT Mobile
    Ranorex 4.0.2发布,支持Firefox19
    Selenium的WebDriver API 提交 W3C 标准化
    UFT/QTP11.5新特性
    2012年总结与2013年展望
    《TestComplete自动化测试实践》培训课程
    QTP11.5(HP UFT 11.5)下载地址
  • 原文地址:https://www.cnblogs.com/tecdat/p/11324615.html
Copyright © 2020-2023  润新知