• 转录组组装软件stringtie


    StringTie是約翰·霍普金斯大學计算机生物中心开发的一款转录组组装软件,在组装转录本的完整度,精度和速度方面都较以往的cufflinks 有很大的提升,也是目前有参考基因组转录组主流的组装软件。

    软件的下载

    wget http://ccb.jhu.edu/software/stringtie/dl/stringtie-1.3.6.Linux_x86_64.tar.gz
    tar zxvf stringtie-1.3.6.Linux_x86_64.tar.gz

    StringTie 使用说明:新版本更新之后去掉了一些参数

    stringtie <input.bam ..> [-G <guide_gff>] [-l <label>] [-o <out_gtf>] [-p <cpus>]
      [-v] [-a <min_anchor_len>] [-m <min_tlen>] [-j <min_anchor_cov>] [-f <min_iso>]
      [-C <coverage_file_name>] [-c <min_bundle_cov>] [-g <bdist>] [-u]
      [-e] [-x <seqid,..>] [-A <gene_abund.out>] [-h] {-B | -b <dir_path>}

    选项:
    --version : 输出软件的版本信息
    -G 参考序列的基因注释文件 (GTF/GFF3)
    -l 输出转录本的名称前缀 (default: STRG)
    -f 最少转录本的比例 (default: 0.1)
    -m 组装转录本的最小长度 (default: 200)
    -o 组装转录本的GTF注释文件 (default: stdout)
    -a 连接位点锚定序列的最小长度 (default: 10)
    -j 连接位点的最小覆盖度 (default: 1)
    -t 基于覆盖度对预测的转录本进行修正 (default: coverage trimming is enabled)
    -c 组装转录本的reads最小覆盖度(default: 2.5)
    -v 输出log 信息
    -g 比对上的reads 间距大于阀值则新城一个新的转录束 (default: 50)
    -C 输出参考转录本中被reads 覆盖到的转录本
    -M 转录束允许多比对reads覆盖的最大占比 (default:0.95)
    -p 线程(CPU)数 (default: 1)
    -A 基因丰都输出文件
    -B 在输出的GFT同目录下输出Ballgown table 文件
    -b 在 <dir_path> 目录下输出Ballgown table 文件
    -e 只对参考转录本进行丰都评估 (requires -G)
    -x 不在参考序列区域组装任何的新转录本
    -u 多比对校正 (default: correction enabled)
    -h 输出软件的帮助信息

    软件的使用
    如果是只需要对已知的基因进行定量使用下面的命令

    stringtie -p 18 -G Homo_sapiens.GRCh38.89.protein_coding.gtf -B -e -o Ctrl-1.gtf -A Ctrl-1_abundance.txt -l Ctrl-1 Ctrl-1.bam

    使用的参数说明

    -p 设置运行的线程数
    -G 设置GTF基因组注释文件
    -B 在GTF的输出目录下输出ballgown table文件,用于使用ballgown table进行差异表达分析
    -e 只对参考转录本进行丰度的计算,需要提供GTF注释文件
    -o 输出生成的GTF注释文件
    -A 输出基因的丰度计算结果
    -l 设置前缀名
    最后接输入的bam文件,输入的bam文件是要排序之后的文件,一般是默认按照染色体顺序排序

    如果是需要组装新的转录本使用下面的命令

    stringtie CM11.bam -G CM.gtf -o CM11.gtf -f 0.3 -j 3 -c 5 -g 100 -s 10000 -p 24

    使用的参数说明

    -f 最少的转录本比例
    -j 连接位点的最小长度
    -c 组装的转录本的最小read覆盖度
    -g 比对上的reads 间距大于阀值则新城一个新的转录束
    -s 新版已经没有了这个参数,主要当作组装转录本的时候的一个阈值
    -p 线程数
    • 比较新的版本才有merge功能,
      转录本合并模式使用说明:
      stringtie --merge [Options] { gtf_list | strg1.gtf ...}
      选项
        -G <guide_gff> 参考转录本的注释信息 (GTF/GFF3)
        -o <out_gtf> 合并转录本的GTF输出文件 (default: stdout)
        -m <min_len> 合并转录本的最小长度(default: 50)
        -c <min_cov> 合并转录本的最低覆盖度(default: 0)
        -F <min_fpkm> 合并转录本的最小FPKM值(default: 1.0)
        -T <min_tpm> 合并转录本的最小TPM值(default: 1.0)
        -f <min_iso> isoform 最小比例(default: 0.01)
        -g <gap_len> 转录本见GAP长度小于阀值则合并两转录本 (default: 250)
        -i 允许合并转录本中有内含子保留; by default
        -l <label> 输出的转录本名称前缀 (default: MSTRG)

    使用方法如下:
    需要先将单个样品得到的gtf放到一个mergelist.txt文件里面,然后使用--merge参数即可,也可以设置-m,-c,-F,-T以及-f等参数对组装后的转录本在merge时进行过滤,同时也可以加入-G 参数输入参考的gtf注释文件

    stringtie --merge -p 20 -o stringtie_merged.gtf mergelist.txt

    <wiz_tmp_tag id="wiz-table-range-border" contenteditable="false" style="display: none;">

  • 相关阅读:
    机器学习知识点总结(1)
    RPC基本原理
    Oracle中ORA-01113,ORA-01110的简单解决
    跟着whatwg看一遍事件循环
    node进程间通信
    白话协程【前端视角】
    白话typescript中的【extends】和【infer】(含vue3的UnwrapRef)
    原来rollup这么简单之插件篇
    面试官: 说说你对async的理解
    白话web安全
  • 原文地址:https://www.cnblogs.com/raisok/p/11046403.html
Copyright © 2020-2023  润新知