• 单菌基因组测序常见问题


    在单菌基因组的组装结果中,N50和N90代表什么意思?
    大于N50长度的序列占基因组总长的50%,大于N90长度的序列占基因组总长的90%。
    1、N50和N90是基因组组装中常用的组装指标,其含义为,将序列按照长度从大到小排列,依次计算大于该序列长度的序列总长,找到序列总长度刚好大于基因组总长度的50%(90%)位置,则该序列的长度定义为N50(N90);
    2、该数值反映了基因组50%(90%)以上的区域,都能被该数值以上长度的序列覆盖,同时体现了组装质量对于后续数据分析的质量贡献。
     
    碱基Error rate数据是怎么算出来的?
    碱基的质量值Q是准确度(P)的一种格式转换,是为了方便使用一个字符表达;转换公式为P=1-10^(-Q/10),如Q=30/20/10的准确度分别为99.9%,99%,90%。
    Error rate是单个碱基位置错误率的期望值,采用的是取对数平均值的算法,首先对该碱基位点的Q值取平均值,然后折算回错误率。例如,Reads某位置处平均Q值为20,则对应的错误率为0.01。
     
    在有杂菌污染的情况下,为什么得不到好的组装结果呢?
    不同物种会有非常多的同源序列,高度相似序列会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列
    1、组装软件在组装过程中,是将测序数据看作来自同一个基因组的前提下进行组装的;
    2、如果有外源DNA污染,其中不同来源的DNA中会有不同程度的相似性序列和非相似性序列,这些复杂的关系会对组装软件产生干扰,而软件为保证组装的准确性,只能将可疑的部分切断成不同的碎片序列,导致最终组装结果只能获得碎片化的序列,而失去了组装本身想要达到的效果;
    3、如果能够找到足够近缘的参考基因组用于污染分离,也可以对上述的结果进行一定程度的改善。然而,由于外源DNA本身可能携带一定的相似序列,并且目标基因组和参考基因组间会存在潜在的差异,进而导致分离的结果会产生一定的假阳性和假阴性;
    4、综上所述,即使是在污染分离后进行组装,也是无法达到纯DNA的组装标准的。
     
    在完成图中,为什么有的质粒可以成环,而有的却不能?
    不同质粒拷贝数和被测到的深度不同
    我们在分析样品基因组的测序深度时发现:染色体的reads测序深度在100×左右,成环质粒的测序深度在80×左右,而不成环质粒测序深度仅在20-40×左右。所以,很可能是因为这些样品的质粒拷贝数较少(与质粒本身的稳定性有关,可能发生丢失),导致质粒的测序深度不充分,因此在质粒基因组组装时无法成环。
     
    在重测序中,为什么只能得到插入/缺失了碱基的数目,却得不到插入/缺失的具体位置与序列信息?如何能够获得具体的序列信息呢?
    1、在重测序中,SV检测分析是可以得到样本相对于参考基因组的一个大概的DEL序列的。但是,由于重测序中只是对于文库片段的两端进行测序,所以中间INS序列暂时无法检测到;
    2、理论上而言,可以对插入位置附近设计引物,通过PCR扩增出具体的序列。另外,也可以通过局部组装附近的reads来获取中间的序列信息(主要取决于局部组装的效果)。
     
    在真菌基因组测序时,比如61个contig中,为什么只有18个contig得到注释呢?
    真菌全基因组数据库太少,连ITS注释都很少,这几年正在快速发展
    这些基因是全部基因组的预测结果,个数相对较少的原因主要为: 
    1. 可能该物种本身基因个数就相对较少,因此得到注释的结果会出现偏少的现象;
    2. 我们在真菌精细图基因预测中,采用的软件是augustus,是根据现有研究的真菌基因模型及序列结构,对编码区进行预测的,对于在NCBI中没有找到已公布信息的结构序列,则表明目前对于该序列的研究结果相对较少,或对于该基因结构的研究还不是很成熟,因此也会导致预测的结果偏少。
     
    次级代谢产物基因簇注释分析中,为什么会出现没有预测到PKS(聚酮合酶)和NRPS(非核糖体肽合成酶)结构的情况呢?
    在次级代谢产物基因簇注释分析中,分两步进行分析:
    1. 首先,我们先对是否存在PKS(聚酮合酶)和NRPS(非核糖体肽合成酶)进行预测;
    2. 其次,根据目前软件训练集中的基因簇的结构进行预测,如果训练集中的基因簇中有匹配的结构就会被预测出来,否则就会无法预测到;
    3. 简而言之,如果无法预测到PKS(聚酮合酶)和NRPS(非核糖体肽合成酶)结构,可能是由于样本本身就不存在这两种酶,或者是这两种酶的结构与训练集中的结构不匹配。
     
    如何在注释结果里查找某个特定的功能基因?
    方法一:可通过在文件夹“Result/04.Genome_Function/Anno Summary/*.Anno Summary.xls”中去进行关键词检索;
    方法二:在KEGG数据库的注释结果中,通过EC酶学的编号来进行检索。比如要查询“环己胺氧化酶”,可以先在KEGG数据库网站http://www.kegg.jp/上检索“cyclohexylamine oxidase”关键词,从而获得对应的EC编号,然后在KEGG的注释结果中,检索对应的EC编号即可;
    方法三:也可根据提供的功能基因的核酸或蛋白质序列,进行blast比对。
     
    如果关注的基因没有被注释出来,是什么原因呢?
    1、有可能该基因在组装时没有被组装出来;
    2、该基因在目标基因组上可能根本不存在;
    3、在注释的数据库里还没有该基因的信息,所以无法注释出来;
    4、研究这株菌中,根本不存在这个基因,还需要进一步确定该菌株中是否真的含有该基因。
  • 相关阅读:
    socket编程中最常用的几个数据类型和转换函数
    windows下给QT可执行文件(exe)一个图标
    fseek函数与ftell函数使用例程
    LINUX C例程1:sscanf的用法
    Linux进程控制——exec函数族
    Linux查看文件编码格式及文件编码转换
    oracle易忘函数用法(1)
    Oracle VARRAY的实际应用简介
    oracle 存储过程的基本语法 及注意事项
    何将ext中的FormPanel中,所有组件都居中放置?
  • 原文地址:https://www.cnblogs.com/freescience/p/7277510.html
Copyright © 2020-2023  润新知