融合基因(Fusion gene)是指两个基因的全部或一部分的序列相互融合为一个新的基因的过程。其有可能是染色体易位、中间缺失或染色体倒置所致的结果。
异常的融合基因可以引起恶性血液疾病以及肿瘤。例如典型的EML4-ALK BCR-ABL融合基因可以导致白血病,此外还有在前列腺癌症里面经常被发现的TMPRSS2-ERG,在非小细胞肺癌里面经常发现的EML4-ALK,VTI1A-TCF7L2 (直肠癌)。
目前的融合基因分类有可分为一下5种:
目前已经很多在线工具,基于高通量测序数据来对检测融合基因。例如:soapfuse,FusionSeq , deFuse, TopHat-Fusion, Fusion- Hunter, SnowShoes-FTD, chimerascan ,FusionMap和STAMP。
这里我们以TopHat-Fusion为例:
1:首先运行tophat比对,并在参数设置种加入:--fusion-search 选项,实例如下:
tophat -p 10 -o ./tophat_sample_1 --fusion-search ./Bowtie2Index/genome PE_1.fastq PE_2.fastq
(注意:每个样本设立一个独立的输出文件夹,例如:./tophat_sample_1)
2:下载数据库(blastdb,ftp://ftp.ncbi.nlm.nih.gov/blast/db/)
其中要下载的数据包括:human_genomic.*;other_genomic*, and nt*。
以上数据库在服务器地址为:/home/fanyc/RNA-seq/tophat/blast
3:建立自己用户目录下建立.ncbirc文件,文件内容如下:
[BLAST]
BLASTDB=/home/fanyc/RNA-seq/tophat/blast
4:在运行完tophat比对后,在运行结果的当前目录建立blast文件夹,将你下载的数据存放在该文件下,或者软链接该文件夹下。此外在http://ccb.jhu.edu/software/tophat/fusion_tutorial.html网站下载你比对的对应物种的:ensGene.txt与refGene.txt。
5:另外在寻找融合基因的过程种,tophat 使用的是blastn程序,请从NCBI上下载blast,并建立blastn软链接到用户目录下。此外该程序会用到bowtie1.
6:在运行基因融合之前,请检查你当前目录下是否存在如下目录和文件:
◦ tophat_sample_1 - the output directory by tophat and you may want to run it on several samples.
◦ tophat_sample_2
◦ ...
◦ tophat_sample_n
◦ ensGene.txt
◦ refGene.txt
◦ blast - BLAST database
7:在确定完成以上操作后,可运行基因融合检测程序如下:
tophat-fusion-post -p 8 --num-fusion-reads 1 --num-fusion-pairs 2 --num-fusion-both 5 /path/to/bowtie_index
参考资料:
2009-Transcriptome Sequencing to Detect Gene Fusions in Cancer
2011-Identification of fusion genes in breast cancer by paired-end RNA-sequencing
2013-SOAPfuse: an algorithm for identifying fusion transcripts from paired-end RNA-Seq data