“三代转录组”是什么?对于混迹在科研领域的一员,如果现在还不了解全长转录组测序,恐怕都不好意思说自己了解高通量测序了呢!
今天小编总结了一些三代全长转录组测序的相关问题,给大家来一个详细全面的解释,希望可以帮到爱学习的您哦!
1.什么是三代全长转录组测序
三代全长转录组测序,即利用PacBio三代测序平台对某一物种的mRNA进行测序研究。它以平均超长读长10-15kb的优势、结合多片段文库筛选技术,实现了无需拼接的转录本分析,克服了传统二代转录组Unigene拼接较短、转录本结构不完整的缺陷,也由于其可直接获得单个RNA分子从5’端到3’端的高质量全部转录组信息而得名。
2.为什么要做全长转录组测序?
转录本非常多样和复杂,绝大多数基因不符合“一基因一转录本”的模式,这些基因往往存在多种剪切形式。通过二代测序,我们可以很准确地进行基因的表达及定量的研究,但是受限于读长的限制,不能得到全长转录本的信息。
基于二代测序平台的转录组产品,首先是把RNA打成小的短片断进行测序,然后再通过生物信息的方法进行拼接,将拼接后的序列交付给客户。但是基于二代测序平台的转录组,由于读长的限制(PE150),在转录本组装的过程中会存在较多的嵌合体,并且不能准确地得到完整转录本的信息,从而会大大降低表达量、可变剪接、基因融合等分析的准确性。
图1. 二代和三代转录组测序原理及读长对比
目前基于PacBio的单分子实时测序技术,目前平均读长已经达到10Kb以上,最长可达80Kb,转录组测序不再需要组装,就可以直接得到全长转录本的信息。
3.二代与三代转录组相比两者分别有哪些优劣势?三代转录组具体优势可否说明?
表1. 二代和三代转录组测序优劣势对比
从上述对比表格可看出,两种转录组测序技术互有优劣势,所以在给各位老师在设计课题时,建议老师二+三代转录组测序技术同时使用,保证结构准确性、序列完整性及序列表达量准确性,达到数据的最优利用效果以及性价比最高。
三代转录组具体优势说明如下:
a.超长读长(平均读长10-15K,最长读长80K),可一次将真核生物的全长转录本信息读取完整;
b.无需进行片段打断和拼接,避免出现组装错误;
c.基于全长转录组测序得到的完整准确的转录本信息,结合二代数据,方便识别特异性表达且做更加精确的基因和转录本表达定量。
d.针对有参考基因组的物种,全长转录组信息可以纠正基因组的错误组装、更准确地发现新的转录本和基因、分析基因融合事件等。
e.无需链特异性建库,全长转录组测序可直接获取正义链、反义链及部分LncRNA信息。
图2. 三代全长转录组测序优势概览
4.哪些物种适合做三代全长转录组测序?获得这些全长mRNA信息有何用处?
无参考基因组物种和有参考基因组物种均适用。
a.对于没有参考基因组的物种
由于基因组测序成本高,缺乏基因组参考信息在很大程度上限制了对物种的深入研究。通过三代全长转录组测序来构建物种Unigene库,无需进行序列组装,就可以获得该物种转录组水平的参考序列(转录组水平的参考基因组),为后续研究提供很好的遗传信息基础。
获得这些全长转录本信息,可以更准确地进行CDS和SSR分析。如果有同一批样本的二代数据,不但可以提高三代测序数据的利用率,同时可以对这些全长的转录本进行更精准的定量分析。
b.对于有不完善参考基因组的物种
参考基因组组装不完善是普遍存在的问题,特别是多倍体这类物种,给科研工作带来了极大阻碍。参考基因组组装不完善,用二代测序会导致reads比对率低,基因表达定量不准确的问题。用全长转录组测序技术可直接获得转录本全长序列,再结合二代测序,会使定量更准确,数据利用率更高,同时基于全长转录组数据,可以优化基因结构,进而辅助基因组组装和注释。
c.对于具有较好参考基因组的物种
利用三代全长转录组测序获得的信息是生物体内直接存在的,比基于参考基因组预测到的转录组信息更准确,同时也可准确鉴定基因的可变剪接、融合基因、基因家族和非编码RNA等信息。
如果有同一样本的二代数据,不但可以提高三代数据的利用率,同时还可以深入研究某基因可变剪接形成的不同转录本的表达差异。可以确定不同发育阶段或不同处理情况下,该基因中高表达转录本以及低表达转录本。不同样品的融合基因和等位基因差异,也同样可以分析。
需要注意的是全长转录组测序只能得到转录本全长序列,不可进行基因表达定量。
5. 全长转录组测序那么贵,如何更大程度上降低测序成本?
由于转录组信息呈动态变化且存在组织差异,单一组织得到的全长转录本对该物种其他部位组织可能不是很全面或不太适用,所以用一个物种不同部位组织混样进行高深度测序(针对不同要求及目的,推荐8G、10G和12G等),会得到比较理想的参考转录本库信息,也是降低测序成本的理想方法。
6. 三代全长转录组测序如何选择测序样本?
总体原则是根据研究目的进行选择,举例说明如下:
a.单个三代转录组项目:
① 如果想要获得该物种相对全面的转录本信息,建议对该物种的不同部位混合取样;
② 如果只想研究某个特定的组织部位,建议在不同发育时期对特定组织部位进行取样;
b. 二+三代转录组混合策略项目:
三代转录组与二代转录组测序取样部位或时期相对应的同一批样品,等量RNA混样测序;
c. 多个三代转录组样品项目:
如果想要研究某物种胁迫处理(其他生物或非生物胁迫都适用)前后变化,建议取对照和处理组(至少两个样品)进行对比分析;
① 全长转录组混样测序为了保证数据来源的均一性,一定要等量RNA混合测序,而非等量样品混合抽取RNA再测序。
② 随着三代转录组测序成本逐步下降,多个三代转录组样品测序的常规时代也即将到来。
7. 全长转录本数据量和文库类型如何确定?
推荐数据量大小需依据物种的复杂程度、基因大小及研究目的来确定。根据已有的项目经验、数据库信息及文章中报道,我们详细推荐如下:
表2. 推荐性全长转录本测序数据量和文库类型
注:对于全长转录组测序,数据量并不是固定的,针对同一物种同一研究目的,测序数据量越多,检测到的全长转录本也会越全面。
8. 全长转录组测序为什么要建3-4个分段文库?不同文库数据产出比例如何?
构建分段文库,是由PacBio平台测序原理所决定。在三代转录组测序过程中,构建好的全长文库需要loading到测序小孔——零模波导孔(ZMWs)中,由于mRNA长度不同,在loading的过程中会出现一定的loading bias,即测序小孔会优先被长度较短的片段占据,每个测序小孔只能容纳一个文库分子,而大部分长片段则没有测到。因此为尽量降低loading bias的影响,需要根据测序物种mRNA的长度进行分段,使一个文库中的序列长度控制在一个较窄的范围内。故构建分级文库越多,也会得到更全面的全长转录本。
全长转录组测序一般推荐至少构建三种文库类型,1-2Kb、2-3Kb和≥3Kb文库,数据产出比例为3:2:2。(例如:测8G的数据量,三个文库分别测3G、3G和2G,也可以根据不同物种调整不同文库的数据量);构建1-2Kb、2-3Kb、3-6Kb、≥6Kb四个文库(例如:测12G的数据量,四个文库分别测4G、4G,2G和2G。数据量分布一般是2:2:1:1或3:2:2:1。
注:根据甜菜三代全长转录组文献中报道还进一步验证了一个常识,多数原本转录本3'UTR+5'UTR长度>1Kb,所以一般不建议构建<1Kb文库,但研究目的是为了获得较为全面的转录本时才会建议构建<1Kb或0.5-1Kb文库。
9. 三代全长转录组建库测序的流程是什么?
图3. 三代转录组建库测序流程简图
简述以上流程:
a.全长cDNA合成:使用Clontech SMARTer PCR cDNA Synthesis Kit合成全长的cDNA;
b.片段选择及PCR扩增:采用BluePippinTM仪器直接进行片段筛选并进行扩增;
c.SMRTbell文库制备:将不同插入片段cDNA加上SMRTbell接头,并完成文库构建;
d.测序:文库进行质控后上机三代平台PacBio测序。
10. 三代全长转录组测序的生物信息分析流程是什么?具体有哪些分析内容?
图4. 三代全长转录组生物信息分析流程简图
表3. 三代全长转录组信息分析内容
有参考基因组物种
无参考基因组物种
(1) 原始数据处理及过滤;
(2) 测序数据质量评估;
(3)全长转录本判定;
(4)转录本聚类校正;
(5)与参考基因组序列比对;
(6)全长转录本比对注释;
(7)基因结构优化;
(8)可变剪接鉴定;
(9)新基因预测及CDS预测
(10)LncRNA预测
(11)基因融合鉴定
(1)原始数据处理及过滤;
(2)测序数据质量评估;
(3)全长转录本判定;
(4)转录本聚类与校正;
(5)全长转录本比对注释;
(6)预测编码蛋白框(CDS);
(7) SSR预测;
(8) LncRNA预测;
11. 三代全长转录组测序获得的Clean Reads中,全长序列所占比例是多少?
全长序列所占比例与测序量和建库长度以及表达量有关。没有准确的标准,一般全长比例会占到50%左右(与目前文献报道及官网测试数据水平一致)。
第三代测序技术Pacbio利用单分子实时测序(SMRT, single molecular real time sequencing)技术,无需组装即可直接获取5’端到3’端完整的全长转录本,具有超长的读长,因此可得到更高质量的转录本,有利于mRNA结构的研究,如可变剪切、融合基因、等位基因表达等。
全长转录组的研究越来越热门,联合二代转录组测序更是成为热门中的热门,除了标准的三代全长转录组和二代转录组测序分析外,还可以利用二代转录组测序数据校正三代全长转录组数据,提高三代数据利用率;同时利用三代全长转录组数据优化二代参考基因组,提高二代定量结果的准确性。小编通过综合三代经典文献思路和已有的项目经验,总结了较全面的三代研究设计方案,供大家参考。
三代测序
利用三代测序,得到某物种的全长转录本集合,研究转录本结构时,比基于参考基因组预测到的转录组信息更准确,可准确鉴定基因的可变剪接、融合基因、基因家族和lncRNA等信息。
A.单个组织取样:研究特定组织的全长转录组;
B.多个组织进行混样:等量RNA混合测序,获得物种完整的全长转录组;
C.多个组织分别取样:比较不同组织或不同处理的全长转录组;
三代+二代测序
二代数据可以进行基因差异表达分析,也可以对三代数据的结果进行校正;
同时三代数据可以辅助参考基因组优化,使定量结果更准确。
A.利用二代数据对三代数据的结果进行校正,以三代数据结果为重点,分析讨论基因结构相关研究[1];
文章:三代全长转录组的研究思路(毛竹全长转录组)
B.三代数据分析基因结构,同时还可以深入研究某基因可变剪接形成的不同转录本的表达差异,分析转录组动态变化;
全长转录组发现新的前列腺癌生物标志物[2]
发表期刊:ClinicalCancer Research;影响因子:13.214(2017)
雄性激素受体(Androgenreceptor,AR)是正常前列腺细胞和前列腺癌细胞中最主要的转录调节因子,前列腺癌患者中表达多个AR变异体(AR-V),其中AR-v7可以提高前列腺癌对AR靶向治疗的抗性。但由于受二代测序读长的限制,无法对完整的AR及AR-V进行准确定量;并且尚不清楚是否有其它AR-V与AR-V7共同表达,影响对AR靶向治疗的抗性。结合二代和三代测序,对去势抵抗性前列腺癌(CPRC)中AR及AR-V的基因结构和表达丰度重新注释。
C.联合比较转录组研究物种进化,通过分析直系同源基因,研究近源物种间的亲缘关系,挖掘关键基因与分子机制[3]。
三代全长+二代测序+蛋白
通过三代鉴定得到isoforms,增加新的转录本信息;二代分析可用于对转录本定量及差异分析;蛋白质组证明哪个可变剪接形成的转录本被翻译成了蛋白质,及不同可变剪接形式所产生的蛋白丰度变化。
联合蛋白组研究脱落酸处理拟南芥的转录和翻译分子机制[4]
发表期刊:The Plant Journal;影响因子:5.775(2017)
在真核生物中,可变剪切机制有助于蛋白的多样性,在应激反应和发育过程中起着至关重要的作用,然而其机制在植物中少见报导。由于脱落酸ABA是一种重要的植物激素,参与了各种胁迫反应,ABA信号转导中的转录调控受到了广泛研究,而转录后调控研究的较少。通过选择6h和48h的对照组和ABA处理样本进行二代测序和蛋白质组检测,6h的对照组和处理组进行三代测序,联合二代测序、三代全长转录组测序和蛋白质组,研究在ABA处理下,拟南芥的转录和翻译机制。
三代全长+二代测序(+miRNA/lncRNA)+甲基化
联合甲基化数据和三代数据获得可变剪切位点信息,分析甲基化与可变剪切位点的关系;同时利用二代数据,准确分析可变剪接关键转录本表达水平变化; miRNA/lncRNA进一步丰富研究内容,如研究miRNA调控转录本的可变剪切。
全长转录组+小RNA+甲基化联合研究异源多倍体棉花[5]
期刊: New Phytologist;影响因子:7.433(2018)
棉花是纺织业重要的天然可再生能源,也是异源多倍体研究的理想模型。本研究采集不同植株根、胚轴、叶、花瓣、花粉、柱头组织,即非纤维组织样品;开花7、10、12、20、30天后(DAP)的棉花纤维组织。混合不同植株样品,等量RNA混合为纤维和非纤维两种,进行三代和小RNA测序,以及利用0、10、20、30DAP棉花纤维DNA甲基化测序数据,首次系统探究异源四倍体棉花全长转录组的AS特征,并从小RNA和DNA甲基化等角度揭示AS的调控机制。
来源: