1 线性模型
1.1 线性模型
1.10 决策树
6.1 pipelines 与复合estimators
6.1.1 pipeline
6.1.1.1 Usage
6.1.1.1.1 创建
Pipeline()或 make_pipeline
6.1.1.1.2 访问步骤
pipe.steps[0]
6.1.1.1.3 嵌套参数
6.1.1.2 笔记
6.1.1.3 缓存transformers
6.3 数据处理
6.3.1标准化,去均值和方差缩放
- processing.scale() 标准化
- StandardScaler().fit(train)获得变换器,可以应用到测试集scaler.transform(test)
6.3.1.1 缩放到固定range 可以MinMaxScaler或MaxAbsScaler
6.3.1.2 缩放稀疏数据
稀疏数据可以用MaxAbsScaler 以及 StandardScaler(但是需要with_mean=False)
6.3.1.3 带着离群值缩放
可以用RobustScaler
6.3.1.4 中心化核矩阵
KernelCenter
6.3.2 非线性变换
6.3.2.1 映射到均匀分布 分位点变换QuantileTransformer 没看懂
6.3.2.2 映射到高斯分布
PowerTransformer提供两个变换
- Yeo-Johnson 变换
- Box-Cox 变换 智能用于正整数
6.3.3 正则化 这个也没太看懂
6.3.4 编码类特征
- OrdinalEncoder 序号编码
- OneHotEncoder(categories=[])
drop 参数没看懂
6.3.5 离散化
6.3.5.1 K-装箱离散
preprocessing.KBinsDiscretizer(n_bins=[],encode='ordinal')
6.3.5.2 特征二值化
preprocessing.Binarizer(threshold=1.1).fit(X)
6.3.6 操作缺失数据
6.3.7 生成交叉特征
poly = PolynomialFeatures(2)
poly.fit_transform(X)
6.3.8 Custom transformers
transformer = FunctionTransformer(np.log1p, validate=True)