挑战:寻找新的处理海量数据和复杂性的方法。
生信:
说了什么:
研究对象: 以核酸、蛋白质等生物大分子数据库
研究手段方法:数学、信息学、计算机科学
研究工具: 计算机硬件、软件、计算机网络
研究目的: 对浩如烟海的原始数据进行获取、加工、存储、分配、分析、管理、注释解释,使之成为具有明确生物意义的生物信息。
并通过生物信息的查询、搜索、比较、分析,从中获取基因编码、基因调控、核酸和pro结构功能及其相互关系等理性知识。
在大量信息和知识的基础上探索生命起源、生物进化以及细胞、器官和个体的发生、发育、病变、衰亡等生命科学中重大问题,弄清它们的基本规律和时空联系。
是什么:
科学角度: 研究生物(生物相关的)系统中“信息内容”和“信息流向”的 综合系统科学。
工具角度: 有关生物(医药)研究开发所必须的工具。
用处: 临床诊断、检验、用药参考建议
怎么实现的:
在Linux系统上(操作各种数据处理软件),利用prel or Python编程语言处理数据,存储在mysql or mongoDB
各种测序方法、一二三代测序原理、测序仪、操作流程
各种比对软件,及其参数设置、软件命令操作、输出结果解读(有用信息提取),
各种格式的文件流程:下机数据格式.fasta/fastq --> 比对后格式.bam/sam --> 变异数据格式.vcf --> 注释文件.bed/gff/gtf
各种注释软件:
各种可视化工具:
数据挖掘、模式识别方法:
临床诊断、用药参考建议: