都有哪些玩家?
- 某个生物学方向(发育、免疫、癌症)的大佬,强在领域的深耕,先进的技术平台,能产生高质量的data,第一作者和通讯一般都是搞实验的,生信最多也就是个共一,文章容易冲击CNS。【掌握实验材料、临床样本、测序数据】
- 某个疾病(depression、SLE、HSCR)的遗传学家,主要就是借助genomics的技术来找疾病的variants和genes,以技术为主,文章不容易发大,除非data够大。
- 大型Atlas合作项目,基本就是烧钱,作铺垫性的工作,短期内很难看到成效,文章基本能发到CNS。
- 开发算法、模型和数据库的计算生物学家,针对前沿的数据(scRNA-seq,image data)和问题(pleiotropy),提出特定的解决方案,文章也不容易发大,以统计和算法为主。
信息
这部分我比较擅长,逻辑明确,不存在什么歧义。
调控variants的功能研究
2015 - PNAS - Multiple functional variants in long-range enhancer elements contribute to the risk of SNP rs965513 in thyroid cancer
GWAS的non-coding variant入手(靶向测序) - haplotype和LD找邻近的enhancer variant(类似fine mapping) - 对基因表达的影响 - 公共数据挖掘邻近enhancers,靶向测序验证 - Allele-Specific Enhancer Activities - differential occupancy of TF - chromosome conformation capture (3C) assay来看Physical Interaction
简评:GWAS下游的典型分析,找到了lead SNP,再找causal SNP,做得很细。haplotype分析缩小目标区域;公共数据库挖掘确定目标enhancer,靶向测序验证;多角度阐述,allele specific enhancer活性;TF差异的occupancy;最后3C直接串联,解释了本质的eQTL。整篇工作非常扎实,策略得当,省了不少钱和工作量,可以套路化(pipeline),值得后人借鉴。【通篇逻辑非常明确,基本都是genomics和genetics的分析,以技术为主】
2020 - NAR - Functional effects of variation in transcription factor binding highlight long-range gene regulation by epromoters【DNA顺式调控元件,CRMs Atlas,1300 CRM variants】
allelic associations with gene expression(就是eQTL,一个非常好的串联上下游的工具)
把我的一个想法给做了,就是找那些在enhancer里面的variants,从而影响了gene expression。
是你怎么做?需要预测一个variant是否会显著改变motif的binding,结合capture-Hic来看这些predicted的variant 是否会改变gene expression,这不就完了吗?有什么问题?
别人是怎么做的?【我靠,一步就能搞定,做了这么多工作,扎实。挖public data真难,NAR不好灌水啊】
- 公共ChIP-seq narrow peak files,定义CRM区域
- 1000 Genomes Project找在CRM区域的variants,分析TF binding affinity
- DeepSea预测variant对TF binding的影响,与前面的做比较
- DNase I sensitivity QTL,variant还能影响表观状态(这也是DeepSea的假设),就是allelic associated DHS signal 【参考】原始paper
- ATAC-QTLs
- massively-parallel reporter assays (MPRA) 辅佐验证
- PCHi-C data
- Gene expression
- Association testing ( threshold-free)
- eQTL fine mapping
- Causal variant colocalization
预印版 - Trans-ethnic eQTL meta-analysis of human brain reveals regulatory architecture and candidate causal variants for brain-related traits【eQTL的meta analysis】
2021 - GB - The genetic mechanism of heterosis utilization in maize improvement 【杂种优势原理探讨,严建兵】
生物
专业领域,需要很强的biology理解,什么是关键问题。生成的data完全取决于需解决的问题和所采取的的实验技术,这里的生物信息只是辅助,归根结底还是需要生物学的思维。【以故事为主,发力不当就像打海绵,使不出力,身为行外人,很难理解为什么有些研究可以发那么高分】
肠道神经发育生物学
2017 - Science - Lineage-dependent spatial and functional organization of the mammalian enteric nervous system【ENCC development】
fate mapping技术/genetic labeling strategy标记某个细胞的发育进程 - 单细胞转录组揭示发育的分子机制 - mosaic analysis with double markers (MADM)分析RET对ENS发育的影响 - ENS发育的Topology分析 - Coordinate activity电刺激下的神经元的协同运动
简评:借助先进的fate mapping技术来研究ENS的发育,单细胞转录组揭示分子机制,深入RET对ENS发育的影响,高级的Topology和电刺激协同性分析。因为不是该领域的资深专家,不是很理解该工作的重要性,我也就能做好这部分单细胞的数据分析,不敢妄评。
cancer
2021 - NC - Model-based analysis uncovers mutations altering autophagy selectivity in human cancer【薛宇,整合分析】
算法
数据库
2019 - NAR - GENCODE reference annotation for the human and mouse genomes
GWASdb
2020 - Briefings in Bioinformatics - CellTalkDB: a manually curated database of ligand–receptor interactions in humans and mice
2015 - NC - A draft network of ligand–receptor-mediated multicellular signalling in human
2012 - Bioinformatics - RNA-Seq Atlas—a reference database for gene expression profiling in normal tissue by next-generation sequencing (https://www.ebi.ac.uk/gxa/home)
2019 - JMB - refTSS: A Reference Data Set for Human and Mouse Transcription Start Sites 【TSS数据库】
遗传与药物
2015 - NG - The support of human genetic evidence for approved drug indications
实证了遗传学证据对临床药物成功率的关系,遗传学GWAS大有所为。
drug repositioning
Atlas系列
2021 - Cell - Population-scale tissue transcriptomics maps long non-coding RNAs to complex disease 【lncRNA,中文解读】
技术类
2018 - NC - Single-cell full-length total RNA sequencing uncovers dynamics of recursive splicing and enhancer RNAs
转录调控
Hnisz, D. et al. Super-enhancers in the control of cell identity and disease. Cell 155, 934–947 (2013). - super-enhancers
Saint-André, V. et al. Models of human core transcriptional regulatory circuitries. Genome Res. 26, 385–396 (2016). - 提出CRCs概念
2017 - NG - Heterogeneity of neuroblastoma cell identity defined by transcriptional circuitries - 使用CRCs进行分析的案例