- 经验1:不要把时间过多的花在数据的前处理上(如序列的比对、标准化),要用同一的pipeline
我们实验室所遇到的数据,如表达谱芯片,ChIP-seq,RNA-seq很多都有成熟的pipeline,如(表达谱芯片的RMA归一化,ChIP-seq从比对到peak calling,RNA-seq若是只做gene定量的pipeline)。我们做研究的目的是发现数据背后的生物学问题,并不是花时间、花大精力去开发软件。所以,我们需要把前边数据前处理的流程统一化,让这部分的工作快速、准确、标准化的完成后,把更多的时间用来挖掘其中的生物学意义。
- 经验2:如果公共数据库中已经有的结果,尽量不要做重复的工作
如果公共数据,已经有类似的数据,除非对是自己的课题特别重要,否则尽量用公共数据,不要再浪费时间和精力做别人已经做过的事情。同理,如果公共数据库中已经有别人比对和整理好的结果(如ChIP-seq的bigWig文件和peak的bed文件),可以直接使用,尽量直接使用。
- 经验3:整理出结果(一些table或可以导入igv的文件),要尽快的分享给大家
我们生物信息的分析人员,处理很多数据,涉入很多课题,有时候,并没有办法充分挖掘所有数据的生物学意义。因此,当我们数据前处理之后,就应该把实验的数据发给生物学的同学们,他们可以通过excel看单基因的表达量,igv图,这样对他们的实验会很有帮助。同时,当你的数据被别人使用的时候,你会很好的得到feedback,共同讨论,一起进步。
- 经验4:避免一些私心,从一个团队的角度出发
由于每个人都想发文章,都需要发文章才能够顺利拿学位,所以,在实验和分析的过程中会有一些私心。这一点我也承认我有。例如,我好不容易分析的结果,为什么要告诉别人,或者不会主动告诉别人。我分析的数据,不希望别人也分析。等等。但是,如果从长远的利益考虑,这种私心其实是非常没有必要,甚至是非常错误的想法。因为,大家是一个团队,大家互相讨论,互相学习,才能互相进步。我们真正面临的竞争,不是实验室内部的同学,而是来自于国际上同行的竞争。如今,生物信息领域飞速发展,组学数据越来越多,文章越发越快。