二、比对
1)Blat:全称 The BLAST-Like Alignment Tool,可以称为"类BLAST 比对工具",对于DNA序列,BLAT是用来设计寻找95%及以上相似至少40个碱基的序列。对于蛋白序列,BLAT是用来设计寻找80%及以上相似至少20个氨基酸的序列。
Blat 的主要特点就是:速度快,共线性输出结果简单易读。Blat 把相关的呈共线性的比对结果连接成为更大的比对结果,从中也可以很容易的找到 exons 和 introns。因此,在相近物种的基因同源性分析和EST 分析中,blat 得到了广泛的应用。
Blat的比对速度之所以能比Blast快几百倍,是因为此两者之间的比对机制有着本质的差别。Blast是将查询序列索引化,然后线性搜索庞大的目标数据库,期间频繁地访问硬盘数据,时间和空间上的数据相关性较小
Blat则将庞大的目标数据库索引化,然后线性搜索查询序列,这种搜索方式在时间和空间上的数据相关性比较大。
Blat将数据库索引一次性读入内存,可以反复地高速调用,无需访问硬盘,占用的系统资源很少。只要索引建立,查询序列的量越大,Blat的优势就越明显。
wget -c https://users.soe.ucsc.edu/~kent/src/blatSrc35.zip unzip blatSrc35.zip cd blatSrc uname -a export MACHTYPE="x86_64" mkdir ~/bin/$MACHTYPE mkdir $MACHTYPE make
注意:Why do I get the error "BLAT CALL FAILED!" even if I have put BLAT to my $PATH when I am running AlignGraph? The current version of BLAT (v35) is not compatible with AlignGraph, so you would have to use an earlier version to avoid this error.
2)AlignGraph:AlignGraph is a software that extends and joins contigs or scaffolds by reassembling them with help provided by a reference genome of a closely related organism.
git clone https://github.com/baoe/AlignGraph.git
注意:AlignGraph输入序列是fa格式的
4)SPAdes:主要用于进行单细胞测序的细菌基因组组装,当然也能用于非单细胞测序数据。输入数据可以是 Illumina、IonTorrent reads,或 PacBio、Sanger reads,也可以把一些 contigs 序列作为 long reads 进行输入。该软件可以同时接受多组 paired-end、mate-pairs 和 unpaired reads 数据的输入:http://cab.spbu.ru/software/spades/
#解压直接使用 wget http://cab.spbu.ru/files/release3.12.0/SPAdes-3.12.0-Linux.tar.gz #老版本 wget http://spades.bioinf.spbau.ru/release3.1.0/SPAdes-3.1.0-Linux.tar.gz
5)QUAST :Quality Assessment Tool for Genome Assemblies
wget https://downloads.sourceforge.net/project/quast/quast-5.0.0.tar.gz tar -xzf quast-5.0.0.tar.gz cd quast-5.0.0 sudo python setup.py install#或者查看README.md查看安装信息
三、变异检测
1)vt:A tool set for short variant discovery in genetic sequence data:https://github.com/atks/vt,下载后make即可
四、注释工具
1)VEP注释工具:
VEP(Variant Effect Predictor)
: 最初发布于2010年(PMID:20562413),16年(PMID:27268795)又发布了新的版本做了很大改进,现在主要可以进行序列变异和结构变异注释.(基于perl)
wget https://github.com/Ensembl/ensembl-vep/archive/release/92.zip
该软件的安装依赖于perl及perl模块DBI:
wget https://cpan.metacpan.org/authors/id/T/TI/TIMB/DBI-1.641.tar.gz tar -xzvf DBI-1.641.tar.gz cd DBI-1.641 perl Makefile.PL PREFIX=/perl/Module/DBI make make test make install #然后 cd VEP perl INSTALL.pl
2)GEMINI:https://gemini.readthedocs.io/en/latest/ or https://github.com/arq5x/gemini
git clone https://github.com/arq5x/gemini.git
安装依赖好多包,而且也要升级包,升级方法去看我的博客Python文件夹,其中出现如下错误:
#ImportError: Tornado requires an up-to-date SSL module. This means Python 2.7.9+ or 3.4+ (although some distributions have backported the necessary changes to older versions). #解决方法:https://stackoverflow.com/questions/51000512/import-error-tornado-requires-an-updated-ssl-module-on-ubuntu-14-04 #不想更新python版本 pip install tornado==4.* pip install jupyter
其中依赖cyvcf2,该包安装成功,但import cyvcf2的时候报错:cyvcf2.so: undefined symbol: EVP_sha1
排错过程比较纠结,但是可以尝试locate EVP_sha1,看是否出来了多条结果,尝试删除其他条,保留/usr/share/man/man3/EVP_sha1.3ssl.gz,sudo vi /var/lib/mlocate/mlocate.db去掉删除的其他条结果。然后再重新安装pip install cyvcf2
gemini load --cores 4 -t snpEff -v RUN-CTRL14.snpeff.clean.vcf.gz gemini.db ''' ValueError: GEMINI configuration file gemini-config.yaml not found in ['/usr/local/share/gemini', '/home/user01/.gemini']. Please ensure the GEMINI data is installed using the install-data.py script http://gemini.readthedocs.org/en/latest/content/installation.html ''' #尝试 sudo python gemini/install-data.py /usr/local/share/
gemini需要grabix
git clone https://github.com/arq5x/grabix.git make
3)prokka:细菌基因组、宏基因组的基因注释
git clone https://github.com/tseemann/prokka.git sudo apt-get -y install bioperl libdatetime-perl libxml-simple-perl libdigest-md5-perl #安装perl包XML sudo bash export PERL_MM_USE_DEFAULT=1 export PERL_EXTUTILS_AUTOINSTALL="--defaultdeps" perl -MCPAN -e 'install "XML::Simple"' # 添加环境变量 export PATH=$PATH:prokka/bin # 自动搜索并添加数据库 prokka --setupdb # 测序数据库 prokka --listdb
4)InterVar:A bioinformatics software tool for clinical interpretation of genetic variants by the ACMG-AMP 2015 guidelines
git clone https://github.com/WGLab/InterVar.git #安装使用后需要annovar软件,看云盘