• 外显子分析:cutadapt,去除序列adapter详细解析


    外显子测序时带有adapt接头,因此我们需要去除adapt接头,cutadapt的作用是去除adapt接头,一般用到如下命令:

    cutadapt -a AACCGGTT -o output.fastq input.fastq
    

    “-a”参数表明后面跟着的“AACCGGTT”是我们想要去除的adapt接头,如果你的外显子接头为其他序列,请将“AACCGGTT”改为你想去除的adapt接头;

    “-o”参数后面跟着的是输出文件“output.fastq”;

    “input.fastq”指的是输入文件;

    输入文件必须是以下三种格式文件:

    • FASTA (文件名后缀: .fasta.fa.fna)
    • FASTQ (后缀: .fastq.fq)
    • 以上任何一种, 但压缩为 .gz (甚至 .bz2 和 .xz 都是允许的).

    如果输入文件以.gz 为后缀的话,则去除adapt的命令为:

    cutadapt -a AACCGGTT -o output.fastq.gz input.fastq.gz
    

    如果通过“-o”没有输出指定文件,也可以用以下命令输出文件:

    cutadapt -a AACCGGTT input.fastq > output.fastq
    

    下图是用不同参数去除不同的adapt,左列是对adapt的描述,右列是我们去除该行对应的adapt时选择的参数:  

    图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)

    下图是去除不同adapt时,剪切掉的序列范围模式图:

    图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)

    对于不同的adapter和命令,去除效果如下:

    "-a ADAPTER"去除ADAPTER后面所有的序列,即使是不完整的ADAPTER也可以去除,如ADAP

    "-g ADAPTER"去除ADAPTER之前所有的序列,包括ADAPTER自己,即使是不完整的ADAPTER也可以,如DAPTER、TER

    “-a ADAPTER$”在adapter上加$只能去除有完整的ADAPTER,且该ADAPTER在3’末端,后面不加任何其他序列,如下图第三列用该参数时不能被去除。

    “-a FIRST...SECOND”该参数能去除首末端分别有FIRST和SECOND的adapter,即使是不完整的SECOND adapter也是允许的,如第二列。然而,当序列没有FIRST首端adapter序列时,则无法去除。

    Ps:如果一条序列含有多个相同的adapter,则系统默认处理最左边的adapter,如“cccccADAPTERgggggADAPTERttttt”,当搜寻3‘ adapter时,序列修剪成“ccccc”,当搜寻5’ adapter时,序列修剪成“gggggADAPTERttttt”。

  • 相关阅读:
    个人总结21
    个人总结08
    个人总结07
    构建之法读后感01
    学习进度表 03
    四则运算3
    求最大值
    学习进度表02
    四则运算 2
    学习进度表01
  • 原文地址:https://www.cnblogs.com/chenwenyan/p/6265324.html
Copyright © 2020-2023  润新知