• GapFiller


    1. GapFiller简介

    组装出来的基因组草图的scaffold需要进一步进行gaps的close。进行这样功能的软件有:SOAPdenovo GapCloser v1.12r6IMAGEGapFiller.

    GapFiller文章发表在Genome Biology上:Boetzer M,Pirovano W. 2012. Toward almost closed genomes with GapFiller. Genome Biol.13:R56。从文章可以完全明白该软件closing gap的原理。

    GapFiller需要输入scaffold序列(FASTA)和NGS paired-read数据(FASTA or FASTAQ),输出FASTA格式文件。该软件的获得需要填写一些邮箱和单位信息。商业license需要花钱;学术性需要引用其文章。

    2. GapFiller安装

    下载GapFiller的安装包,解压缩后,里面包含bowtie、bwa和example共3个文件,其最重要的是GapFiller.pl文件,为主程序。还有2个PDF格式的manual文件。

    3. GapFiller的使用

    直接运行主程序,会给出软件的参数说明,如下:

    -l library文件

    -s scaffold序列的fasta文件

    -m default:29   和gap边缘重叠的最小碱基数,该数值最好设置比reads的长度小一点点的数。比如36bp长度的reads,设置该值为30~35.

    -o default:2  在补洞时,延伸一个碱基最小需要的reads数.

    -r default:0.7 在补洞时,至少有该比例reads的碱基一致,才能对该碱基位点进行延伸。

    -d default:50 gap部分序列的允许的最大差异。填补gap后,若值“填补上的序列长度 - gap长度”大于该阈值,则停止补洞;若小于该阈值,则不进行融合。

    -n default:10 在一个scaffold中对邻近的两个contigs进行融合所需要最小重叠的碱基数。

    -t default:10 由于gap边缘的碱基大部分是低质量碱基,补洞时需要先将gap边缘该数目的碱基trim掉,作为N处理。

    -i default:10 迭代的最大次数。

    -g default:1 使用bowtie进行比对的时候允许的最大的gap数,和bowtie中的-v参数一致

    -T default:1 运行时使用的线程数

    -S 跳过重新读取输入文件

    -b 输出文件的basename。

    -l 参数所指向的library文件需要先行编辑好。该文件包含7列,每一列之间以空格(space)隔开.其例子和格式如下:

    Lib1 bwa file1.1.fasta file1.2.fasta 400 0.25 FR

    Lib1 bowtie file2.1.fasta file2.2.fasta 400 0.25 FR

    Lib2 bowtie file3.1.fastq file3.2.fastq 4000 0.5 RF

    第1列:library名称

    第2列:使用的序列比对方法,如果reads长度<50,则使用bowtie;若长度>50并<150,则使用bwa;若长度很大,比如454的reads,则使用bwa。BWA和BWA-sw运行在默认模式下。

    第3,4列:双末端测序的fastq文件或fasta文件。

    第5,6列:插入片段的长度,以及承认的长度。比如上例子中插入片段长度为400bp,成对的reads的片段长度只有在[400-400*0.25,400+400*0.25]范围内才被承认。

    第7列:双端测序reads的方向,有FF,FR,RF和RR几种。

    4. 例子

    编辑一个libraries.txt文件,内容如下:

    Illumina_160bp bwa fragment.reads1.fastq fragment.reads2.fastq 156 0.25 FR

    Illumina_6000bp bwa jumping.reads1.fastq jumping.reads2.fastq 6170 0.25 FR

    运行GapFiller程序,如下:

    1. $GapFillerHome/GapFiller.pl -l libraries.txt -s genome.fasta -m 90 -T 8 -b species

    来源:https://www.plob.org/article/6182.html

  • 相关阅读:
    arcgis server10.2自带打印模板路径
    【js笔记】数组那些事[0]
    微信打开网页不能下载的解决
    CSS里一个奇怪的属性
    存一些有用的CSS
    【JS笔记】闭包
    关于百度空间的关闭
    数据校验插件开发
    JavaScript 内存机制
    手写JQuery 的框架的实现
  • 原文地址:https://www.cnblogs.com/bio-mary/p/12356400.html
Copyright © 2020-2023  润新知