单菌基因组测序常见问题

单菌基因组测序常见问题

在单菌基因组的组装结果中，N50和N90代表什么意思？

大于N50长度的序列占基因组总长的50%，大于N90长度的序列占基因组总长的90%。

1、N50和N90是基因组组装中常用的组装指标，其含义为，将序列按照长度从大到小排列，依次计算大于该序列长度的序列总长，找到序列总长度刚好大于基因组总长度的50%（90%）位置，则该序列的长度定义为N50（N90）；

2、该数值反映了基因组50%（90%）以上的区域，都能被该数值以上长度的序列覆盖，同时体现了组装质量对于后续数据分析的质量贡献。

碱基Error rate数据是怎么算出来的？

碱基的质量值Q是准确度(P)的一种格式转换，是为了方便使用一个字符表达；转换公式为P=1-10^(-Q/10)，如Q=30/20/10的准确度分别为99.9%，99%，90%。

Error rate是单个碱基位置错误率的期望值，采用的是取对数平均值的算法，首先对该碱基位点的Q值取平均值，然后折算回错误率。例如，Reads某位置处平均Q值为20，则对应的错误率为0.01。

在有杂菌污染的情况下，为什么得不到好的组装结果呢？

不同物种会有非常多的同源序列，高度相似序列会对组装软件产生干扰，而软件为保证组装的准确性，只能将可疑的部分切断成不同的碎片序列

1、组装软件在组装过程中，是将测序数据看作来自同一个基因组的前提下进行组装的；

2、如果有外源DNA污染，其中不同来源的DNA中会有不同程度的相似性序列和非相似性序列，这些复杂的关系会对组装软件产生干扰，而软件为保证组装的准确性，只能将可疑的部分切断成不同的碎片序列，导致最终组装结果只能获得碎片化的序列，而失去了组装本身想要达到的效果；

3、如果能够找到足够近缘的参考基因组用于污染分离，也可以对上述的结果进行一定程度的改善。然而，由于外源DNA本身可能携带一定的相似序列，并且目标基因组和参考基因组间会存在潜在的差异，进而导致分离的结果会产生一定的假阳性和假阴性；

4、综上所述，即使是在污染分离后进行组装，也是无法达到纯DNA的组装标准的。

在完成图中，为什么有的质粒可以成环，而有的却不能？

不同质粒拷贝数和被测到的深度不同

我们在分析样品基因组的测序深度时发现：染色体的reads测序深度在100×左右，成环质粒的测序深度在80×左右，而不成环质粒测序深度仅在20-40×左右。所以，很可能是因为这些样品的质粒拷贝数较少（与质粒本身的稳定性有关，可能发生丢失），导致质粒的测序深度不充分，因此在质粒基因组组装时无法成环。

在重测序中，为什么只能得到插入/缺失了碱基的数目，却得不到插入/缺失的具体位置与序列信息？如何能够获得具体的序列信息呢？

1、在重测序中，SV检测分析是可以得到样本相对于参考基因组的一个大概的DEL序列的。但是，由于重测序中只是对于文库片段的两端进行测序，所以中间INS序列暂时无法检测到；

2、理论上而言，可以对插入位置附近设计引物，通过PCR扩增出具体的序列。另外，也可以通过局部组装附近的reads来获取中间的序列信息（主要取决于局部组装的效果）。

在真菌基因组测序时，比如61个contig中，为什么只有18个contig得到注释呢？

真菌全基因组数据库太少，连ITS注释都很少，这几年正在快速发展

这些基因是全部基因组的预测结果，个数相对较少的原因主要为：

1. 可能该物种本身基因个数就相对较少，因此得到注释的结果会出现偏少的现象；

2. 我们在真菌精细图基因预测中，采用的软件是augustus，是根据现有研究的真菌基因模型及序列结构，对编码区进行预测的，对于在NCBI中没有找到已公布信息的结构序列，则表明目前对于该序列的研究结果相对较少，或对于该基因结构的研究还不是很成熟，因此也会导致预测的结果偏少。

次级代谢产物基因簇注释分析中，为什么会出现没有预测到PKS（聚酮合酶）和NRPS（非核糖体肽合成酶）结构的情况呢？

在次级代谢产物基因簇注释分析中，分两步进行分析：

1. 首先，我们先对是否存在PKS（聚酮合酶）和NRPS（非核糖体肽合成酶）进行预测；

2. 其次，根据目前软件训练集中的基因簇的结构进行预测，如果训练集中的基因簇中有匹配的结构就会被预测出来，否则就会无法预测到；

3. 简而言之，如果无法预测到PKS（聚酮合酶）和NRPS（非核糖体肽合成酶）结构，可能是由于样本本身就不存在这两种酶，或者是这两种酶的结构与训练集中的结构不匹配。

如何在注释结果里查找某个特定的功能基因？

方法一：可通过在文件夹“Result/04.Genome_Function/Anno Summary/*.Anno Summary.xls”中去进行关键词检索；

方法二：在KEGG数据库的注释结果中，通过EC酶学的编号来进行检索。比如要查询“环己胺氧化酶”，可以先在KEGG数据库网站http://www.kegg.jp/上检索“cyclohexylamine oxidase”关键词，从而获得对应的EC编号，然后在KEGG的注释结果中，检索对应的EC编号即可；

方法三：也可根据提供的功能基因的核酸或蛋白质序列，进行blast比对。

如果关注的基因没有被注释出来，是什么原因呢？

1、有可能该基因在组装时没有被组装出来；

2、该基因在目标基因组上可能根本不存在；

3、在注释的数据库里还没有该基因的信息，所以无法注释出来；

4、研究这株菌中，根本不存在这个基因，还需要进一步确定该菌株中是否真的含有该基因。
相关阅读:
socket编程中最常用的几个数据类型和转换函数
 windows下给QT可执行文件(exe)一个图标
 fseek函数与ftell函数使用例程
 LINUX C例程1:sscanf的用法
 Linux进程控制——exec函数族
 Linux查看文件编码格式及文件编码转换
 oracle易忘函数用法(1)
Oracle VARRAY的实际应用简介
 oracle 存储过程的基本语法及注意事项
 何将ext中的FormPanel中,所有组件都居中放置?
原文地址：https://www.cnblogs.com/freescience/p/7277510.html