目前人们对lncRNA认识还处在初级阶段,lncRNA起初被认为是基因组转录的“噪音”,是RNA聚合酶II转录的副产物,不具有生物学功能。然而大量研究表明,lncRNA在细胞核内、核外,通过染色质修饰,转录调控,转录后调控等多种方式调节基因表达,在肿瘤发生发展中具有重要作用。
一般来说,lncRNA功能研究的主线包含3个主要步骤:
(1)高通量筛选。全转录组测序和lncRNA芯片是目前最常用的技术手段,通过这种高通量的筛选方法,可以快速获得不同实验组间差异表达的lncRNA和mRNA。
(2)候选lncRNA的确定。通过生物信息学分析,从大量lncRNA 中筛选有潜在功能意义的lncRNA。
(3)目标lncRNA的功能分析与验证。根据上述生物信息分析推断出lncRNA可能的生物学功能,并设计相应的实验来验证假设是否成立。
编码能力预测以鉴别novel mRNA和lncRNA:
分别用CPC,CNCI,PfamScan三个软件来对novel transcript序列做编码能力预测
我们选取主流的三个预测软件官网:
PfamScan:http://pfam.xfam.org/
CPC:http://cpc.cbi.pku.edu.cn/
CNCI:https://github.com/www-bioinfo-org/CNCI
鉴定标准如下:
CPC_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA
CNCI_threshold = 0,大于0的转录本为mRNA,小于0的为lncRNA
PfamScan:比对上Pfam蛋白数据库的为mRNA,没有比对上的为lncRNA
注意:1)cpc和PfamScan( http://www.dxy.cn/bbs/thread/36426921#36426921 作者之前写过用法)需要先建立蛋白参考数据库,cpc可以下载Uniprot/swissprot蛋白序列
2)PfamScan输入的是蛋白序列,可以由cpc的预测结果得出。
预测完成之后选取三个软件的交集转录本作为novel coding和noncoding转录本
我们在筛选lncRNA的时候,取的是交集,这样筛选的结果会更加准确可靠。
很多LNCRNA因为命名不统一,所以网上查找起来很困难,有没有好用的数据库或者方法?
答: 主要是以NCBI为主,比较全面,便于查询。如果你主要关注人和小鼠的LncRNA的话,可以看看GENCODE,这个上面很全,经常更新,而且上面的命名NCBI也可以查询到。
其他物种的话,你可以看下Ensembl上面,他的注释gtf文件里面包含了所有的RNA,但是其中lncRNA比GENCODE要少一些。所有已知的LncRNA在NCBI上面都是可以查询的。NCBI,GENCODE,Ensembl这三个数据库的基因symbol基本一致。所以,如果是人和小鼠,你选择GENCODE比较好,如果是其他物种,就选择Ensembl吧
这篇文献主要介绍了lncScore,用python写的一个脚本,主要是依赖一个机器学习第三方库scikit-learn。它能够通过开放阅读框,外显子和最大编码子序列等11个特征参数对lncRNA进行筛选。为了加快lncScore的运行速度,主要采用多线程>分析,只需花费2分钟的时间就能够对64,756个转录本进行分类。
文章里用gencode数据库里的lncRNA数据做了验证
此工具与CPAT, CNCI 和 PLEK类似,我们的lncRNA流程里的编码潜能预测软件用的是CPC CNCI Pfam,貌似CPC也是这个团队开发的。
来源:
https://www.dxy.cn/bbs/newweb/pc/post/36683079
https://www.omicsclass.com/question/995
http://yangguang8112.github.io/tags/%E6%96%87%E7%8C%AE/
http://www.360doc.com/content/18/0607/18/50540690_760476362.shtml
http://www.360doc.com/content/18/0515/20/50540690_754224549.shtml (lncRNA研究常用数据库)