Spark ML 中逻辑回归算法的分类阈值设置说明

Spark ML 中逻辑回归算法的分类阈值设置说明

Spark中的分类算法中总有分类阈值这个参数。

分类阈值用来调整预测的概率大小，算法会计算出每条预测数据属于哪个类别的概率p，将该条数据预测为p/t的最大值下表的类别（下标从0开始）。

类别标签有几个值，也就是几个类别，阈值需要有几个值。如果是二分类，则分类阈值就有两个值，如果是三分类，则分类阈值就有三个值。

例如分类标签有三个类别 0、1、2，假设算法计算出一条数据属于这三个类别的概率p=[0.1, 0.5, 0.4]，则最大概率值的下标是1，则这条数据初始的类别是1 （下标从0开始）。

假设这三个类别的分类阈值分别设置为t=[0.1, 0.2, 0.04]，那么 p/t=[1, 2.5, 10] 的最大值的下标是2，则这条数据最终的类别是2。p/t是p与t的对应值相除。

这样，就把初始的类别1调整为最终的类别2。

可见，如果想把哪个类别的预测结果变多，那么把该类别的分类阈值变小。

如果分类阈值设置全都相等，例如都为t=[1, 1, 1] ，则相当于没有做调整。
相关阅读:
活动安排问题
 完美字符串
 Codeforces Round #696 (Div. 2) 解题报告
 Codeforces 1459D
Codeforces 25D
POJ 1847
LightOJ 1074
POJ 3159
POJ 1511
POJ 1502
原文地址：https://www.cnblogs.com/Ao0216/p/16184925.html