• sklearn之基础算法模型


    0. 模型拥有的通用方法:fit(train_x,train_y) predict(test_x)

    1. KNN<实现k近邻投票的分类器> (参数一般只调:n_neighbors,weights,leaf_size,metric)

    1 sklearn.neighbors.KNeighborsClassifier(n_neighbors=5, weights=’uniform’, algorithm=’auto’, leaf_size=30, p=2, metric=’minkowski’, metric_params=None, n_jobs=None, **kwargs)

    参数解释:

    • n_neighbors:紧邻数量,默认为5
    • weights:有三个值uniform、distance、[callable]
    • uniform: 统一的权重。每个邻域中的所有点的权值都是相等的。
    • distance: 权值点与它们的距离成反比。
    • callable: 一个用户定义的函数,它接受一个距离数组,并返回一个包含权值的形状相同的数组
    • algorithm:该参数表示计算最近邻的算法。ball_tree、kd_tree、brute、auto
    • ball_tree:使用BallTree算法
    • kd_tree:使用KDTree
    • brute:使用brute-force搜索
    • auto:根据传递给fit方法的值来决定最合适的算法
    • leaf_size:叶大小,默认30.传递给BallTree或KDTree。这可能会影响构造和查询的速度,以及存储树所需的内存。最优值取决于问题的性质
    • p:闵可夫斯基距离的P表示默认2。当p=1时,就是曼哈顿距离,当p=2时,就是欧式距离,当p 就是切比雪夫距离
    • metric:用于树的距离度量。默认的度量是闵可夫斯基距离, P值默认2,即距离度量默认是欧式距离。
    • n_jobs:表示并行作业数量

    2. 决策树(参数一般只调:max_depth,min_samples_leaf)

    1 sklearn.tree.DecisionTreeClassifier(criterion=’gini’, splitter=’best’, max_depth=None, min_samples_split=2, min_samples_leaf=1, min_weight_fraction_leaf=0.0, max_features=None, random_state=None, max_leaf_nodes=None, min_impurity_decrease=0.0, min_impurity_split=None, class_weight=None, presort=False)

    参数解释:

    • criterion:决策树分支算法
    • splitter:
    • max_depth:树最大深度
    • min_samples_split:
    • min_samples_leaf:
    • max_features:
    • random_state:
    • max_leaf_nodes:
    • min_impurity_decrease:
    • min_impurity_split:
    • class_weight:
    • min_weight_fraction_leaf:
    • presort:

    3.朴素贝叶斯(参数一般都用默认)

    1 sklearn.naive_bayes.GaussianNB(priors=None, var_smoothing=1e-09)

    参数解释:

    • priors:先验概率。如果指定,则不根据数据调整先验
    • var_smoothing:最大方差部分的所有特征,是增加到方差计算的稳定性

    4.线性回归(参数一般都用默认)

    1 sklearn.linear_model.LinearRegression(fit_intercept=True, normalize=False, copy_X=True, n_jobs=None)

    参数解释:

    • fit_intercept:是否计算该模型的截距。如果设置为False,计算中将不使用截距。
    • normalize:当fit_intercept设置为False时,将忽略该参数。若为真,则回归前对回归量X进行归一化处理,即减去均值,然后除以L2-范数。如果您希望标准化,请使用sklearn.预处理。在使用normalize=False调用对估计量的拟合之前调用StandardScaler
    • copy_X:如果为真,则复制X;否则,它可能被覆盖。
    • n_jobs:表示并行作业数量

    5.SVM

    1 sklearn.svm.SVC(C=1.0, kernel=’rbf’, degree=3, gamma=’auto_deprecated’, coef0=0.0, shrinking=True, probability=False, tol=0.001, cache_size=200, class_weight=None, verbose=False, max_iter=-1, decision_function_shape=’ovr’, random_state=None)

    参数解释:

    • C: C-SVC的惩罚参数C?默认值是1.0
    • C越大,相当于惩罚松弛变量,希望松弛变量接近0,即对误分类的惩罚增大,趋向于对训练集全分对的情况,这样对训练集测试时准确率很高,但泛化能力弱。C值小,对误分类的惩罚减小,允许容错,将他们当成噪声点,泛化能力较强。
    • kernel:核函数,默认是rbf,可以是‘linear’, ‘poly’, ‘rbf’, ‘sigmoid’, ‘precomputed’
    • degree:多项式poly函数的维度,默认是3,选择其他核函数时会被忽略。
    • gamma: ‘rbf’,‘poly’ 和‘sigmoid’的核函数参数。默认是’auto’,则会选择1/n_features
    • coef0:核函数的常数项。对于‘poly’和 ‘sigmoid’有用。
    • shrinking:是否采用shrinking heuristic方法,默认为true
    • probability:是否采用概率估计?.默认为False
    • tol:停止训练的误差值大小,默认为1e-3
    • cache_size:核函数cache缓存大小,默认为200
    • class_weight:类别的权重,字典形式传递。设置第几类的参数C为weight*C(C-SVC中的C)
    • verbose:允许冗余输出
    • max_iter:最大迭代次数。-1为无限制。
    • decision_function_shape:‘ovo’, ‘ovr’ or None, default=None3
    • random_state:数据洗牌时的种子值,int值

    主要调节的参数有:C、kernel、degree、gamma、coef0。

     

    6.逻辑回归

    1 sklearn.linear_model.LogisticRegression(penalty=’l2’, dual=False, tol=0.0001, C=1.0, fit_intercept=True, intercept_scaling=1, class_weight=None, random_state=None, solver=’warn’, max_iter=100, multi_class=’warn’, verbose=0, warm_start=False, n_jobs=None, l1_ratio=None)

    参数解释:

    • penalty:惩罚系数,默认L2
    • dual:双重或原始配方。对偶公式只适用于l2罚的线性解算。当n_samples > n_features时,优先选择dual=False
    • tol:
    • C:
    • fit_intercept:指定是否将常数(也称为偏差或截距)添加到决策函数。
    • intercept_scaling:
    • class_weight:
    • random_state:
    • solver:
    • max_iter:求解器收敛所需的最大迭代次数。
    • multi_class:
    • verbose:
    • warm_start:
    • n_jobs:
    • l1_ratio:

    7.神经网络

  • 相关阅读:
    05用户故事与敏捷方法笔记之五
    04用户故事与敏捷方法笔记之四
    03用户故事与敏捷方法笔记之三
    框架学习.关于内省api操作bean属性
    02用户故事与敏捷方法笔记之二
    01用户故事与敏捷方法笔记之一
    问题账户需求分析
    2017年秋季个人阅读计划
    第二冲刺项目进展
    典型用户与场景
  • 原文地址:https://www.cnblogs.com/Alexisbusyblog/p/12403657.html
Copyright © 2020-2023  润新知