长末端重复序列(long terminal repeated,LTR):反转录病毒的基因组的两端各有一个长末端重复序列(5'—LTR和3'—LTR),不编码蛋白质,但含有启动子,增强子等调控元件,病毒基因组内的LTR可转移到细胞原癌基因邻近处,使这些原癌基因在LTR强启动子和增强子的作用下被激活,将正常细胞转化为癌细胞。
结构见下图
图中TSD表示target site duplications,红色三角表示LTR motif。A图是一个完整的LTR结构,其中a,b,c是LTR_retriever
的分析目标。
第一步,用LTR_FINDER
找到基因组的LTR序列
~/opt/biosoft/LTR_Finder/source/ltr_finder -D 20000 -d 1000 -L 700 -l 100 -p 20 -C -M 0.9 Athaliana.fa >Athaliana.finder.scn
这里的-D表示5'和3'LTR之间的最大距离,-d表示5'和3'LTR之间的最小距离,-L表示5'和3'LTR序列的最大长度,-l表示5'和3'LTR序列的最小长度,-p表示完全匹配配对的最小长度,-C表示检测中心粒(centriole)删除高度重复区域,-M表示最小的LTR相似度。如果不知道怎么设置就采用默认值。
第二步运行LTR_retriever
根据LTR_FINDER
的输出识别LTR-RT,生成非冗余LTR-RT文库,可用于基因组注释
~/opt/biosoft/LTR_retriever/LTR_retriever -threads 4 -genome Athaliana.fa -infinder Athaliana.finder.scn
这里的-infinder
表示输入来自于LTR_FINDER,这一步会调用RepeatMasker,而RepeatMasker要求序列ID长度不大于50个字符
参考来源:
https://xuzhougeng.blog.csdn.net/article/details/102804330