rpkm&map - 润新知

rpkm&map

基因表达水平统计
基因表达水平一般是通过该基因转录的mRNA的多少来衡量的。每个基因转录产生的mRNA的量，是受到时空等多种因素调控的，个体在不同的生长发育阶段，或者不同的组织水平，基因转录出mRNA的量都是不一样的。 RPKM是利用RNA-Seq技术用来定量估计基因表达值的一个非常有效的工具。RPKM是Reads per Kilobase of
13
Transcript per Million Reads Mapped
的缩写，由Mortazavi于2008年第一次提出。其计算公式为：
设RPKM（A）为基因A的表达量，则R为唯一比对到基因A的Reads数，N为唯一比对到参考基因的总Reads数，L为基因A的外显子区域的长度。RPKM法能消除基因长度和测序量差异对计算基因表达的影响，计算得到的基因表达量可直接用于比较不同样品间的基因表达差异
不同样品表达水平密度曲线

注：上图为所有基因的表达量概率密度分布图，图中横坐标为log2(RPKM+1)，该数值越高，表示基因表达量越高；纵坐标为基因的核密度值，曲线的总面积为1；图中每种颜色表示一个样本，所有概率的总和为 1，即每个区域的面积均为 1；密度曲线的峰值表示整个样本基因表达量最集中的区域。
2.6.2 样品基因表达水平聚类
一般情况下，源于同一实验条件下的样品会聚类到一起，表明实验条件为影响聚类的主要因素。根据样品全部基因的表达量信息对样品进行系统聚类，得到下图：
14
注：根据每个样品的基因表达量，计算两两之间的皮尔逊相关系数（Pearson Correlation Efficiency），来表示样品两两间的相似度。再利用系统聚类法（Hierarchical Cluster）将相似度高的样品归为一类，以此类推，最终得到样品的整体聚类结果。

##2
左图为散点图（scatter-plot），横纵坐标分别表示两个样本中基因或转录本的表达量（FPKM值），这里横纵坐标的数值都做了对数化处理，每个点代表一个特定的基因或转录本，特定的一个点对应的横坐标值为该基因或转录本在样本1中的表达量，纵坐标值为该基因或转录本在样本2的表达量。图中红色点表示显著上调的基因，蓝色点表示显著下调的基因，黑色点为非显著差异基因；将所有基因或转录本映射上去后，越接近0的点，说明表达量越低；那些偏离了对角线程度越大的点表明该基因或转录本在两个样本间表达差异越大。Pearson correlation是指两个样本基因表达水平的相关性指数，该数值越接近于1，说明两个样本表达水平越一致，差异越不显著；如果两个样本是重复样本的话，说明重复性越好。
右图为火山图（Volcano-plots），横坐标为基因或转录本在两个样本间表达差异的倍数变化值，即样本1的表达量除以样本2的表达量得到的数值，纵坐标为基因或转录本表达量变化差异的统计学检验值，即p值，p值越高则表达差异越显著，横纵坐标的数值都做了对数化处理。图中每个点代表一个特定的基因或转录本，红色点表示显著上调的基因，蓝色点表示显著下调的基因，黑色点为非显著差异基因；将所有基因或转录本映射上去之后，可以获知，在左边的点为表达差异下调的基因，右边的点为表达差异上调的基因，越靠左边和上边的点表达差异越显著。
相关阅读:
PHPStrom 设置终端字体大小
 PostgreSQL 9 夸库查询
 弹性布局
 sql中的 where 、group by 和 having 用法解析
 数据库面试中常问的几个问题
 SQL中 UNION 和 UNION ALL 操作符小结
 SQL里 inner JOIN、 left (OUTER) JOIN 、right (OUTER) JOIN、 full (OUTER) JOIN 之间的区别
 MYSQL中LIMIT用法
 Java集合框架小结
 jQuery$.each循环遍历详解，各种取值对比，$.each遍历数组、对象、Dom元素、二维数组、双层循坏、类json数据等等
原文地址：https://www.cnblogs.com/impw/p/13842936.html