• Genscan指南


    Genscan指南

    GenScan是一个gene识别软件,主要是通过已知生物的基因结构特征来识别新的基因(parse)。所利用的基因特征请参看readme文件。

    特点:
    1. 只考虑编码蛋白的基因。
    2. 模型考虑每个sequence可能有0个,1个,多个,甚至双链都有基因。
    3. 假设transcription units没有overlapping。

    Input:

    基因组序列

    Output:

    1. 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
    2. 图形文件:展示预测外显子的位置

    1. 安装

    安装要求:

    N kilobases的序列需要 N/2 Megabytes of RAM

    获取软件

    Genscan对学术用户免费,需要在这里提交你的姓名和地址后下载Intel/Linux distribution。此时还可以看到readme文件

    下载到的文件是genscanlinux.tar.uue

    安装步骤

    建立安装目录

    mkdir GENSCANS
    cd GENSCANS
    mv 下载目录/genscanlinux.tar.uue ./
    

    解压缩

    sudo apt-get install sharutils
    uudecode genscanlinux.tar.uue 
    tar -xvf genscanlinux.tar
    ./
    ./Arabidopsis.smat
    ./HUMRASH
    ./HUMRASH.sample
    ./HumanIso.smat
    ./Maize.smat
    ./README
    ./HUMRASH.ps
    ./genscan
    

    确保你的权限

    chmod a+x genscan
    chmod a+r *.smat
    

    把genscan和配置文件(*.smat)安装到你的环境变量中

    mv genscan /usr/bin/genscan
    mkdir /usr/lib/GENSCAN
    mv *.smat /usr/lib/GENSCAN
    

    尝试运行

    genscan
    
    usage: genscan parfname seqfname [-v] [-cds] [-subopt cutoff] [-ps psfname scale]
    
           parfname : full pathname of parameter file
                      (for appropriate organism)
    
           seqfname : full pathname of sequence file
                      (FastA or minimal GenBank format)
    
           -v       : verbose output (extra explanatory info)
    
           -cds     : print predicted coding sequences (nucleic acid)
    
           -subopt  : display suboptimal exons with P > cutoff (optional)
           cutoff   : suboptimal exon probability cutoff (minimum: 0.01)
    
           -ps      : create Postscript output (optional)
           psfname  : filename for PostScript output
           scale    : scale for PostScript output (bp per line)
    

    以上文件出现则安装成功


    2. 运行程序

    参数文件

    参数文件中包含了基因组中基因序列的各种特征,不同物种有所区别。目前可用的物种参数文件,包括:

    HumanIso.smat-----------------human/vertebrate sequences (also Drosophila)(脊椎动物)
    Arabidopsis.smat---------------Arabidopsis thaliana sequences(双子叶植物)
    Maize.smat----------------------Zea mays sequences(单子叶植物)

    使用时请于物种相对应,否则效果很差

    序列文件

    fasta文件即可(还支持minimal GenBank文件)
    运行程序(双子叶植物为例)

    genscan /usr/lib/GENSCAN/Arabidopsis.smat 我的序列.fasta -ps 图片output名称.ps > 文字output名称.txt
    

    3. 结果

    1. 文本文件:识别出来的外显子基因,翻译后的蛋白质序列。
      例子
    GENSCAN 1.0	Date run: 12-Mar-98	Time: 10:28:00
    
    Sequence HUMRASH : 6453 bp : 68.19% C+G : Isochore 4 (57 - 100 C+G%)
    
    Parameter matrix: HumanIso.smat
    
    Predicted genes/exons:
    
    Gn.Ex Type S .Begin ...End .Len Fr Ph I/Ac Do/T CodRg P.... Tscr..
    ----- ---- - ------ ------ ---- -- -- ---- ---- ----- ----- ------
    
     1.01 Init +   1664   1774  111  1  0   94   83   212 0.997  21.33
     1.02 Intr +   2042   2220  179  1  2  104   66   408 0.997  40.12
     1.03 Intr +   2374   2533  160  1  1   89   94   302 0.999  32.08
     1.04 Term +   3231   3350  120  2  0  115   48   202 0.961  18.31
    
    Predicted peptide sequence(s):
    
    
    >HUMRASH|GENSCAN_predicted_peptide_1|189_aa
    MTEYKLVVVGAGGVGKSALTIQLIQNHFVDEYDPTIEDSYRKQVVIDGETCLLDILDTAG
    QEEYSAMRDQYMRTGEGFLCVFAINNTKSFEDIHQYREQIKRVKDSDDVPMVLVGNKCDL
    AARTVESRQAQDLARSYGIPYIETSAKTRQGVEDAFYTLVREIRQHKLRKLNPPDESGPG
    CMSCKCVLS
    
    1. 图形文件:展示预测外显子的位置
  • 相关阅读:
    Jenkins中构建Testcomplete项目的方法介绍
    抖音批量,批量运营抖音_不要迷恋我_【单月抖音变现7000万】教程
    java 读取 excel 表格内容
    .NET Core 2.1中的分层编译(预览)
    Windows10上使用Linux子系统(WSL)
    swagger上传文件并支持jwt认证
    .NET微服务 容器化.NET应用架构指南(支持.NET Core2)
    用C#编写Linux守护进程
    安装mysql后运行.net程序出错
    2018 你好
  • 原文地址:https://www.cnblogs.com/southern-xyx/p/4459984.html
Copyright © 2020-2023  润新知