使用 gffread 提取基因组序列信息

需求：提取 1 号染色体的 21856782-21856982 和 43942666-43942866 区间的 fa 序列；
需要准备的test.gff3文件如下所示，第一列是染色体号，第二列和第三列的内容随意，第四列和第五列是提取的开始位置和终止位置，第六列和第八列内容随意，第七列是基因组的正负链，第九列序列的信息，第九列必须有Parent=, ;ID=, ;gene_id=信息，不然序列提取不出来。分隔符为tab：

chr1    gene     transcript      21856782  21856982  .       +       .       Parent=ENST0000001234.1;ID=ENST0000001234.1;gene_id=ENST0000001234.1
chr1    gene     transcript      43942666  43942866  .       +       .       Parent=ENST00000567890.1;ID=ENST00000567890.1;gene_id=ENST00000567890.1

另外还需要基因组文件GRCh38.primary_assembly.genome.fa, 如下所示：

准备好以上两个文件后，用命令gffread -w test.fa -g GRCh38.primary_assembly.genome.fa test.gff3即可获取需要的序列。序列存储在test.fa文件中。

本文来自博客园，作者：橙子牛奶糖（陈文燕），转载请注明原文链接：https://www.cnblogs.com/chenwenyan/p/15784802.html

相关阅读:
python字符串
python定义多点坐标_绘制折线_计算起始点和终点
python进制转化
python画奥运五环
python的注释方法行连接符
python的命名和帮助命令查看关键字
python的turtle模块画图
汇编语言
python自动化办公【第三节判断语句】
python自动化办公【第二节运算及数据类型等【不断修订中】】

原文地址：https://www.cnblogs.com/chenwenyan/p/15784802.html