• sklearn


    一、获取数据

    1.导入数据:

    from sklearn import datasets

    from sklearn import datasets

    iris=datasets.load_iris()     #导入数据集

    x=iris.data                  #获得特征向量

    y=iris.target                   #获得样本lable

    2.

    from sklearn.datasets.samples_generator import make_classification
     
    X, y = make_classification(n_samples=6, n_features=5, n_informative=2, 
        n_redundant=2, n_classes=2, n_clusters_per_class=2, scale=1.0, 
        random_state=20)
     
    # n_samples:指定样本数
    # n_features:指定特征数
    # n_classes:指定几分类
    # random_state:随机种子,使得随机状可重

    二、数据预处理

    2.1 数据归一化(使得训练数据的标准化规则与测试数据的标准化规则同步)

    from sklearn import preprocessing
    data = [[0, 0], [0, 0], [1, 1], [1, 1]]
    # 1. 基于mean和std的标准化
    scaler = preprocessing.StandardScaler().fit(train_data)
    scaler.transform(train_data)
    scaler.transform(test_data)
     
    # 2. 将每个特征值归一化到一个固定范围
    scaler = preprocessing.MinMaxScaler(feature_range=(0, 1)).fit(train_data)
    scaler.transform(train_data)
    scaler.transform(test_data)
    #feature_range: 定义归一化范围,注用()括起来

    2.2 数据正则化(使得训练数据的标准化规则与测试数据的标准化规则同步,最终使得每个样本的范数都为1。)

    >>> X = [[ 1., -1.,  2.],
    ...      [ 2.,  0.,  0.],
    ...      [ 0.,  1., -1.]]
    >>> X_normalized = preprocessing.normalize(X, norm='l2')
     
    >>> X_normalized                                      
    array([[ 0.40..., -0.40...,  0.81...],
           [ 1.  ...,  0.  ...,  0.  ...],
           [ 0.  ...,  0.70..., -0.70...]])

    2.3 one-shot编码

    one-hot编码是一种对离散特征值的编码方式,在LR模型中常用到,用于给线性模型增加非线性能力。

    data = [[0, 0, 3], [1, 1, 0], [0, 2, 1], [1, 0, 2]]
    encoder = preprocessing.OneHotEncoder().fit(data)
    enc.transform(data).toarray()
    只是学习笔记,非原创。
  • 相关阅读:
    微信小程序设置web-view的业务域名
    第61节:Java中的DOM和Javascript技术
    第61节:Java中的DOM和Javascript技术
    小程序获取时间格式
    小程序获取时间格式
    小程序弹出框详解
    小程序弹出框详解
    Python自定义包引入【新手必学】
    Go语言底层知识总结【新手必学】
    Python代码编写规范,你真的会吗?
  • 原文地址:https://www.cnblogs.com/cloris-Zhang/p/12295357.html
Copyright © 2020-2023  润新知