• sklearn学习4----预处理(1)标准化


    一、【标准化】scale:

    1、导入模块  from sklearn.preprocessing import scaler

    2、作用:直接将给定数据进行标准化

    3、使用代码

    X_scaled=scaler(X_data)
    X_scaled.mean(axis=0) #自己计算标准化之后的均值
    X_scalerd.std(axis=0) #自己计算标准化后的方差

    二、【标准化】StandardScaler

    1、导入模块  from sklearn.preprocessing import StandardScaler

    2、作用:可保存训练集中的均值、方差参数,然后直接用于转换测试集数据。

    3、使用代码:

    ss=StandardScaler()
    Xtrain_data=ss.fit_transform(train_data)  #标准化训练集然后保存训练集的均值和方差
    Xtest_data=ss.transform(test_data) #转换测试集数据
    print(ss.mean_) print(ss.var_)

    三、【缩放到指定范围(最大最小化)】MinMaxScaler

    1、导入模块:from sklearn.preprocessing import MinMaxScaler

    2、作用:将属性缩放到一个指定的最大和最小值(通常是1-0)之间,这样处理可对方差非常小的属性增强其稳定性,也可维持稀疏矩阵中为0的条目。

    3、使用代码

    '''
    preprocessing.MinMaxScaler(feature_range=(0, 1), copy=True) 
    
    计算公式: 
    X_std = (X - X.min(axis=0)) / (X.max(axis=0) - X.min(axis=0)) 
    X_scaled = X_std * (max - min) + min 
    其中 
    feature_range : tuple (min, max), default=(0, 1)
    '''
    
    minmaxscaler = MinMaxScaler()
    minmaxscaler.fit_transform(X)
    
    minmaxscaler.scale_
    minmaxscaler.min_

    四、【正则化】 Normalizer

    1、导入模块:from sklearn.preprocessing import Normalizer

    2、作用:对每个样本计算其p-范数,再对每个元素除以该范数,这使得每个处理后样本的p-范数(l1-norm,l2-norm)等于1。如果后续要使用二次型等方法计算两个样本之间的相似性会有用。

    3、使用代码

    normalizer =Normalizer().fit(X)
    normalizer.transform(X)
  • 相关阅读:
    面向对象编程(一)
    函数嵌套(闭包)、阶乘、斐波那数列知识
    函数的定义及用法
    常见例子
    Python解析JSON详解
    linux yum install mvn
    消息组件
    websphere 安装中出现JNDI资源找不到问题总结
    多业务Nginx解决方式
    python-pip 安装使用问题
  • 原文地址:https://www.cnblogs.com/Lee-yl/p/9139612.html
Copyright © 2020-2023  润新知