什么是生物信息学?
他是一个学科领域,包含着基因组信息的获取,处理,存储,分配(第一部分:把信息拿来管好帮助用户使用好),分析和解释(第二部分:破译遗传信息中生病之类的基本规律,获取基本规律的发掘与获得)的所有方面。
从美国的三个国家计划说起:曼哈顿计划(核弹,核能,能源革命);阿波罗计划(人类探索宇宙,走出地球空间的革命);人类基因组计划(上个世纪80年代末。90年代初,1990年开始,通过15年的时间,投资30亿美金破译人类遗传密码);
破译人类遗传密码,就要读懂30亿符号组成的100万页的天书.
nature the human genome 几千亿的作者在汪洋大海里面发表
Science The Rice Genome 水稻基因组.
计算机运行速度:18个月增长一倍 DNA序列数据:14个月增长一倍;
代表基因组研究进展的数据:基因组信息派生的信息.
四类数据:
GenBank(基因组的碱基测序数据)中的DNA碱基数目呈指数增加。
EST数据:基因组当中跟基因相关的那一部分序列的数据。任何一个基因组当中是一部分编码的。特定的实验得到的.一个个的小片段.平均长度大约300bps.和编码蛋白质的信息有关,跟基因组当中的功能联系得更紧的数据。
单核苷酸多态性SNPS(Single Nucleotide Polymorphisms)数据库.在基因组当中的某一个位置上。这个碱基是可以不同的,正常的假设是 A.某个人变成了C了。那就多样了,单一的位置上被其他的代替了产生的形态。基因组当中遗传组密码产生了变异。变异和各种表形有关,可能和人的生长发育有关,和人类的疾病有关。比如引起肿瘤.代表着基因组中发生变化的.和健康直接相关的,非常重要。数量增加更快,走向应用的一个关键。
全长基因组数据,一个生物的完全破译了。整个遗传密码,
三个主要的数据来源
美国的核酸数据库GenBank。
欧洲分子生物学实验室EMBL数据库
日本核酸数据库DDBJ
基本上编码蛋白质的只用了3%的DNA,其他的DNA不好说..
生物信息学是把基因组DNA序列信息分析作为源头,破译隐藏在DNA序列中的遗传语言、特别是非编码区的实质:同时在发现了新基因信息之后进行蛋白质空间结构模拟和预测。
生物信息学的研究目标是揭示“基因组信息结构的复杂性及遗传语言的根本规律”。它是本世纪自然科学和技术科学领域中“基因组,信息结构和复杂性”这三个重大科学问题的有机结合。