• 预处理数据


    import numpy as np
    import pandas as pd
    
    #预处理数据sklearn-preprocessing
    
    #创建一组特征数据,每一行表示一个样本,每一列表示一个特征
    dataset = pd.read_csv('data.csv')
    X = dataset.iloc[ : , :-1].values  #自变量
    Y = dataset.iloc[ : , 3].values #因变量
    #矩阵向量
    #print(X)
    
    
    # 1. 标准化:去均值,方差规模化
    
    #将特征数据的分布调整成标准正太分布,高斯分布,也就是使得数据的均值维0,方差为1.
    # print("数据导入")
    # print("X")
    # print(X)
    # print("Y")
    # print(Y)
    
    
    #解析分类数据
    from sklearn.preprocessing import Imputer
    #axis=1表示对每一行去做这个操作,axis=0表示对每一列做相同的这个操作
    #标准化后的数据的均值与方差,已经变成0,1了
    imputer = Imputer(missing_values = "NaN", strategy = "mean", axis = 0)
    imputer = imputer.fit(X[ : , 1:3])
    X[ : , 1:3] = imputer.transform(X[ : , 1:3])
    
    # print("X")
    # print(X)
    
    
    from sklearn.preprocessing import LabelEncoder, OneHotEncoder
    labelencoder_X = LabelEncoder()
    X[ : , 0] = labelencoder_X.fit_transform(X[ : , 0])
    # print(X)
    #标准化 方差规模化
    onehotencoder = OneHotEncoder(categorical_features = [0])
    X = onehotencoder.fit_transform(X).toarray()
    labelencoder_Y = LabelEncoder()
    Y =  labelencoder_Y.fit_transform(Y)
    
    # print(Y)
    #拆分数据集合为测试数据和训练数据
    from sklearn.model_selection import train_test_split
    X_train, X_test, Y_train, Y_test = train_test_split( X , Y , test_size = 0.2, random_state = 0)
    
    
    #一个训练数据和测试数据 自变量
    from sklearn.preprocessing import StandardScaler
    sc_X = StandardScaler()
    X_train = sc_X.fit_transform(X_train)
    X_test = sc_X.transform(X_test)
    
    
    
    
  • 相关阅读:
    (Linux)CentOS7下安装JDK 1.8
    centos 7 防火墙操作
    centos 7 挂载U盘
    Linux(CentOs 7)系统重装笔记(二)---完全删除用户账号和root用户登录
    更改oracle数据库密码(因为密码过期)
    Linux(CentOs 7)系统重装笔记(一)
    C#中的double类型数据向SQL sqerver 存储与读取问题
    SQL Server (MSSQLSERVER) 服务由于下列服务特定错误而终止: %%17051
    django+uwsgi+nginx
    golang的array/slice
  • 原文地址:https://www.cnblogs.com/mengluo/p/10305001.html
Copyright © 2020-2023  润新知