用一段序列的复杂度来测度这段序列可能是编码区呢?还是编码区?如果这短序列的复杂性越高,也就是说花样越多的话。这段序列越像是编码区。
外显子是被内含子隔开的.
用数据库资源如何发现新基因
通过数据库资源发现新基因的途径:
1.这两个途径就是你用了什么样的数据库资源,利用数据库当中的基因组序列进行来发现新的基因.发现新的编码序列.通过实验得到的基因组序列发现先的编码序列。
原理是:识别。如何识别呢?是利用序列当中的信号或者组分来识别。
2.基因组数据库中的EST数据是发现新的编码的区域的另外一个数据源。
很重要的一个部分是进行比对:
发现基因以后和标准数据库来对比,有一个数学上完全给出确定解的算法.就是动态规划算法.但是如果三个序列在一块比,能不能也有一个完全确定的解呢?四个序列呢?五个序列呢?统称为多序列比对.Multiple Alignment,用来发现新的基因的工具.
多序列比较其实也是一种通过序列比对来发现新基因的办法.如果序列条数多的话,计算复杂度要大大增加.所有的多序列比对的办法都是近似解,暂无精确解.
当序列数大于10或者更复杂的时候实际上就是一个NP问题,就是计算复杂度极高的问题.
往往是通过多种办法的结合才能找出新的基因,方法的组合。
一般有五种方法.定个阈值,假设四种都说明有。那我就定位有。用不同的办法来投票。最简单的办法就是用多种办法来进行投票计数。这就是目前我们实际真正使用的。最后采取投票的方法。
现在有的办法是构造神经网络:
实际是一个投票的机器,输入端是不同的方法的集合。对不同的方法给予一个权重。整合权重的方法就来的更可靠一些。
目前没解决的好的问题?
1.基因组拼接中的重复序列处理。
如果有100个序列都是一样的。那么就只有1个是接对的,99个是接错的了。这就没办法处理了。重复序列其实是比较多额。所以就不好处理。确实是个难题.人类基因组实际上没这么复杂,为什么?全世界的科学家们成百个实验室,就研究人类基因组,做一个工作。就找什么样的序列在整个基因组当中只出现一次,这种序列就是Mark,就是标记。当人类基因组测序之前这种Mark已经找到了六万个,可以按照这6万个标记切成6万段。每一段能接起来的。人类基因组实际不是完整的序列。实际是测的是克隆。人类基因组的复杂度已经降低了六万倍了。做大规模测序之前,先按标记切开,那么每个序列里重复序列就很少了.
2.基因标识的准确率。
发展新的检测编码序列的办法依然有很大的空间.
3.基因的可变剪接;
4.蛋白质的空间结构和功能预测。