NCBI存在的问题:
数据用户的增长
软件开发受限
数据分析缺乏
有些传统束缚,仅用底层语言书写
Pangenome
Open gene是随菌株数量增大而增大的gene,Closed gene是随菌株数量增大而趋于平滑的gene。
Mategenomics and longevity,例子:年轻人的粪便使得老年鱼活的时间更长
Genomics for precision medicine
研究碱基
GC content,三个氢键比较稳定(S)
chargaff''s rule
GC content与何种生物特性有关。
比如与Genome size成正比。
Eg:复制后突变使得CG content变高,用于研究演化。
Eg:利用CG content 正负找到复制起始位点。
Genetic codes:
因为先RNA后DNA,所以从AU开始。GCN中的N表四重简并位点。
由左上角开始起源,GCP1、GCP2,GC-rich、AT-rich。
根据Physicoochemical分析可知:
中间是A则是电极
中间是C则是疏水
中间是G则是复杂
Modeling sequencing analyse
S=C∪G
R=A∪T
连乘得到的密码子的content,在不同物种中比较,每个氨基酸的预期与实际比较,提示有密码子中的氨基酸活跃位点,利用氨基酸矩阵比较,验证了此想法,容易变化的位点是因为理化性质相似。