• zscore Normalization


      Z-score 表示一个值是高于或低于平均值多少个标准差( a score that indicates how many standard deviations a value is above or below the mean).

    比如用于RNA-seq 的normalisation.  对每个基因的原始表达量减去平均基因丰度,然后除以所有样本测量的标准差SD(standard deviation) 。这个与TPMs(Transcripts per million):计数通过特征长度归一化。

     z-score主要目的将不同量级的数据统一转化为同一量级,统一用计算出的Z-score衡量,保证数据之间的可比性。计算之前需要:

      1) 总体数据的均值(μ)

     2) 总体数据的标准差(σ)

     3)  个体的观测值(x)  

    计算(x-μ)/σ,实现将不同的数据转换到相同的量级上,值没有量纲,实现标准化。z score告诉我们这个值距离平均值相差几个标准差。

    z-score = 1 意味着样本值超过均值 1 个标准差;
    z-score = 2 意味着样本值超过均值 2 个标准差;
    z-score = -1.8 意味着样本值低于均值 1.8 个标准差。
    z-score告诉我们样本值在正态分布曲线中所处的位置。z-score = 0告诉我们该样本正好位于均值处,z-score = 3 则告诉我们样本值远高于均值

    参考: https://blog.csdn.net/qq_39482438/article/details/110873346

    Normalization: 

      standard deviation(SD): 衡量一组变量的离散程度。低标准差表示变量很接近mean平均值,然而高的的标准差表示值离散到更广的范围, 总体标准差(population standard deviation)用lower case Greek letter σ (sigma)表示,样本标准差用Latin letter s表示。 随机变量、样本、统计分布、数据集、概率分布的标准差是方差的平方根。相比方差,它与数据样本的单位相同。

      总体或样本的standard deviation 与统计量的standard error(如样本均值 sample mean) 不同,但相关。样本均值的standard error 是从总体中抽取无限量的重复样本并计算每个样本的standard deviation,来找到均值集的标准偏差(standard deviation). 均值的standard error 等于总体standard deviation除以样本量的方根,是用样本standard deviation除以样本量的平方根来估计。

    在科学研究中,会同时说明数据的standard deviation作为summary statistic,以及估计的standard error作为研究中潜在错误的衡量方法。按照惯例,距离零期望(null expectation)两个standard errors以外的效应才被认为是显著,

     例子

  • 相关阅读:
    【线段树】【积累】主席树杂题积累 2016CCPC长春K SequenceII
    【积累】最小不能表示正整数 (以及一些做法
    【字符串】回文树&&回文自动机PAM
    【字符串】后缀自动机SAM
    【字符串】AC自动机
    【字符串】Trie树
    StringUtils类中isEmpty与isBlank的区别
    【Git】pull遇到错误:error: Your local changes to the following files would be overwritten by merge:
    jsp 与jstl
    listener 作用
  • 原文地址:https://www.cnblogs.com/koujiaodahan/p/16378365.html
Copyright © 2020-2023  润新知