RepeatMasker使用

RepeatMasker软件是library-based，通过相似性比对来识别重复序列，可以屏蔽序列中转座子重复序列和低复杂度序列（默认将其替换成N）。使用数据库Dfam和Repbase

The Dfam database is a collection of Repetitive DNA element sequence alignments, hidden Markov models (HMMs) and matches lists for complete Eukaryote genomes.

Repbase是由美国遗传信息研究所（GIRI）创建并维护，收录了转座子和其他重复序列及其注释信息。

本地安装RepeatMasker，除了需要RepeatMasker主程序外，还需要TRF（Tandem Repeats Finder）、序列搜索引擎（以RMBlast为例）以及Repbase数据库。

搜索引擎可以安装多个，但是每次只能用一个。

Using RepeatMasker to Identify Repetitive Elements in Genomic Sequences

要屏蔽的区域：low-complexity DNA sequences and interspersed repeats

比对引擎：cross_match WU-BLAST(更快)

阈值设定：

-lib 指定数据库

-nolow 不去mask low-complexity DNA or simple repeats

-no_is Skips bacterial insertion element check

-norna Does not mask small RNA (pseudo) genes

速度设定

-s Slow search; 0-5% more sensitive, 2-3 times slower than default

-q Quick search; 5-10% less sensitive, 2-5 times faster than default

-qq Rush job; about 10% less sensitive, 4->10 times faster than default
(quick searches are fine under most circumstances) repeat options

参考来源

https://www.cnblogs.com/pxy7896/p/10008578.html

相关阅读:
water——小根堆+BFS
P5930 [POI1999]降水/SP212 WATER
Blue Mary的战役地图——Hash表
Antisymmetry（反对称）——Manacher
数论基础
可持久化数据结构（线段树，trie树）
20200725模拟赛5题解
vscode 如何创建git 新分支
mysql 把一个数据库中的表数据复制到另一个数据库中
shrio中的用法以及配置

原文地址：https://www.cnblogs.com/bio-mary/p/12238325.html