外显子测序时带有adapt接头,因此我们需要去除adapt接头,cutadapt的作用是去除adapt接头,一般用到如下命令:
cutadapt -a AACCGGTT -o output.fastq input.fastq
“-a”参数表明后面跟着的“AACCGGTT”是我们想要去除的adapt接头,如果你的外显子接头为其他序列,请将“AACCGGTT”改为你想去除的adapt接头;
“-o”参数后面跟着的是输出文件“output.fastq”;
“input.fastq”指的是输入文件;
输入文件必须是以下三种格式文件:
- FASTA (文件名后缀:
.fasta
,.fa
,.fna
) - FASTQ (后缀:
.fastq
,.fq
) - 以上任何一种, 但压缩为
.gz
(甚至.bz2
和.xz
都是允许的).
如果输入文件以.gz 为后缀的话,则去除adapt的命令为:
cutadapt -a AACCGGTT -o output.fastq.gz input.fastq.gz
如果通过“-o”没有输出指定文件,也可以用以下命令输出文件:
cutadapt -a AACCGGTT input.fastq > output.fastq
下图是用不同参数去除不同的adapt,左列是对adapt的描述,右列是我们去除该行对应的adapt时选择的参数:
图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)
下图是去除不同adapt时,剪切掉的序列范围模式图:
图来源(https://cutadapt.readthedocs.io/en/stable/guide.html)
对于不同的adapter和命令,去除效果如下:
"-a ADAPTER"去除ADAPTER后面所有的序列,即使是不完整的ADAPTER也可以去除,如ADAP
"-g ADAPTER"去除ADAPTER之前所有的序列,包括ADAPTER自己,即使是不完整的ADAPTER也可以,如DAPTER、TER
“-a ADAPTER$”在adapter上加$只能去除有完整的ADAPTER,且该ADAPTER在3’末端,后面不加任何其他序列,如下图第三列用该参数时不能被去除。
“-a FIRST...SECOND”该参数能去除首末端分别有FIRST和SECOND的adapter,即使是不完整的SECOND adapter也是允许的,如第二列。然而,当序列没有FIRST首端adapter序列时,则无法去除。
Ps:如果一条序列含有多个相同的adapter,则系统默认处理最左边的adapter,如“cccccADAPTERgggggADAPTERttttt”,当搜寻3‘ adapter时,序列修剪成“ccccc”,当搜寻5’ adapter时,序列修剪成“gggggADAPTERttttt”。