• Spark ML 中逻辑回归算法的分类阈值设置说明


    Spark中的分类算法中总有分类阈值这个参数。

    分类阈值用来调整预测的概率大小,算法会计算出每条预测数据属于哪个类别的概率p,将该条数据预测为p/t的最大值下表的类别(下标从0开始)。

    类别标签有几个值,也就是几个类别,阈值需要有几个值。如果是二分类,则分类阈值就有两个值,如果是三分类,则分类阈值就有三个值。

    例如分类标签有三个类别 0、1、2,假设算法计算出一条数据属于这三个类别的概率p=[0.1, 0.5, 0.4],则最大概率值的下标是1,则这条数据初始的类别是1 (下标从0开始)。

    假设这三个类别的分类阈值分别设置为t=[0.1, 0.2, 0.04],那么 p/t=[1, 2.5, 10] 的最大值的下标是2,则这条数据最终的类别是2。p/t是p与t的对应值相除。

    这样,就把初始的类别1调整为最终的类别2。

    可见,如果想把哪个类别的预测结果变多,那么把该类别的分类阈值变小。

    如果分类阈值设置全都相等,例如都为t=[1, 1, 1] ,则相当于没有做调整。

  • 相关阅读:
    活动安排问题
    完美字符串
    Codeforces Round #696 (Div. 2) 解题报告
    Codeforces 1459D
    Codeforces 25D
    POJ 1847
    LightOJ 1074
    POJ 3159
    POJ 1511
    POJ 1502
  • 原文地址:https://www.cnblogs.com/Ao0216/p/16184925.html
Copyright © 2020-2023  润新知