• SAM格式 及 比对工具之 samtools 使用方法


    参考资料:

    这个学习急不来,而且比对非常重要,先把上面的官方SAM/BAM格式说明文件看透`Sequence Alignment/Map Format Specification`

    SAMtools解决的问题

    • 非常多序列(read),mapping到多个参考基因组(reference)上;
    • 同一条序列,分多段(segment)比对到参考基因组上;
    • 无限量的,结构化信息表示,包括错配、删除、插入等比对信息;

    samtools 格式详解

    @SQ    SN:Supercontig_6    LN:4218384
    SRR1216519.3960650    73    Supercontig_6    5    0    67M13S    =    5    0    CTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCTAACCCCAACCCCAACCCCACACCCCACACC    EEEEED?CEEFFDFFFDBFEEEDEAB=EBC@-?@?BE=EB?-B?####################################    NM:i:2    AS:i:57    XS:i:57
    #R498-三代组装比对信息
    @SQ    SN:tig00000000    LN:110432
    @SQ    SN:tig00000001    LN:42601
    @SQ    SN:tig00000002    LN:14821
    @PG    ID:bwa    PN:bwa    VN:0.7.10-r789    CL:/public/software/bwa-0.7.10/bwa mem -e breakpoint.contigs breakpoint.contigs.fasta
    
    tig00000000    0    tig00000002    6796    60    99995S62M1D17M2I2    *    0    0    TGAAAACACCAGTCGGTGGTCGGC    *    NM:i:228    MD:Z:7G16G34T2    AS:i:840    XS:i:0    SA:Z:tig00000001,41895,+,

    SAM格式,即序列比对文件格式,由头部区(@开头)和 主体区组成,均以tab分列。

    • 头部区:体现比对的总体信息,如SAM格式版本,参考序列,使用软件。
    • 主体区:比对结果,每一列都是一个比对结果,有11个主列 和 1个可选列。

    以上:

    @SQ行:SN是参考序列名;LN是参考序列长度。

    下一行分别是:

    1. QNAME(比对序列名);
    2. FLAG(比对类型,由2的次方的累加,如73=64+8+1);
    3. RNAME(比对上的参考序列名字)
    4. POS(比对上的序列最左边的碱基的位置)
    5. MAPQ(比对质量,BWA算出来的)
    6. CIGAR(比对结果信息,简写)
    7. MENM(pair序列比对在参考基因组上的名字,同上RNAME)
    8. MPOS(pair比对位置,同上POS)
    9. ISIZE(插入片段长度)
    10. SEQ(序列信息,来自fastQ)
    11. QUAL(质量信息,来自fastQ)
    12. 可选列(格式为TAG:TYPE:VALUE,提供额外信息)

     

    局部组装常用命令及其参数

    $samtoolsdir/samtools view -@ $NP -Sb $out/bwamem_$sample.sam -o $out/bwamem_$sample.bam
    -@ 硬件参数
    -S 输入为SAM文件
    -b 输出为BAM文件
    -o 指定输出文件
    $samtoolsdir/samtools sort -@ $NP $out/bwamem_$sample.bam -o $out/bwamem_$sample.sorted.bam
    
    $samtoolsdir/samtools index $out/bwamem_$sample.sorted.bam

     

    注意:目前使用的参数中均没有影响结果的参数

  • 相关阅读:
    selenium(六)Page Object模式(使用selenium的PageFactory)
    CodeForces 1325C Ehab and Path-etic MEXs(思维)
    CodeForces 1325D Ehab the Xorcist(异或和+算数和)
    家庭房产(模拟)
    取硬币(思维)
    Xor and Sum(异或和+算术和)
    一元三次方程求解(数学、二分)
    最大最小公倍数 (数学、贪心)
    天梯---球队“食物链”(DFS+剪枝)
    HDU-4857 逃生(逆向拓扑排序)
  • 原文地址:https://www.cnblogs.com/leezx/p/5603374.html
Copyright © 2020-2023  润新知