ROC曲线(Receiver Operating Characteristic Curve)

分类模型尝试将各个实例（instance）划归到某个特定的类，而分类模型的结果一般是实数值，如逻辑回归，其结果是从0到1的实数值。这里就涉及到如何确定阈值（threshold value）,使得模型结果大于这个值，划为一类，小于这个值，划归为另一类。

考虑一个二分问题，即将实例分成正类（positive）或负类（negative）。对一个二分问题来说，会出现四种情况。如果一个实例是正类并且也被预测成正类，即为真正类（True positive）,如果实例是负类被预测成正类，称之为假正类（False positive）。相应地，如果实例是负类被预测成负类，称之为真负类（True positive）,正类被预测成负类则为假负类（false negative）。

列联表如下表所示，1代表正类，0代表负类。

		预测
		1	0	合计
实际	1	True Positive（TP）	False Negative（FN）	Actual Positive(TP+FN)
实际	0	False Positive（FP)	True Negative(TN)	Actual Negative(FP+TN)
合计		Predicted Positive(TP+FP)	Predicted Negative(FN+TN)	TP+FP+FN+TN

从列联表引入两个新名词。其一是真正类率(true positive rate ,TPR), 计算公式为TPR=TP / (TP + FN)，刻画的是分类器所识别出的正实例占所有正实例的比例。另外一个是负正类率(false positive rate, FPR),计算公式为FPR= FP / (FP + TN)，计算的是分类器错认为正类的负实例占所有负实例的比例。还有一个真负类率（True Negative Rate，TNR），也称为specificity,计算公式为TNR=TN / (FP + TN) = 1 − FPR。

在一个二分类模型中，对于所得到的连续结果，假设已确定一个阀值，比如说 0.6，大于这个值的实例划归为正类，小于这个值则划到负类中。如果减小阀值，减到0.5，固然能识别出更多的正类，也就是提高了识别出的正例占所有正例的比类，即TPR,但同时也将更多的负实例当作了正实例，即提高了FPR。为了形象化这一变化，在此引入ROC。

Receiver Operating Characteristic,翻译为"接受者操作特性曲线"，够拗口的。曲线是由两个变量的组合，1-specificity和 Sensitivity. 由于1-specificity=FPR，即负正类率。Sensitivity即是真正类率，True positive rate,反映了正类覆盖程度。这个组合以1-specificity对sensitivity,即是以代价(costs)对收益(benefits)。

参考wiki:http://en.wikipedia.org/wiki/Receiver_operating_characteristic

转自:http://blog.sciencenet.cn/blog-636598-550801.html

相关阅读:
winform利用itextsharp.dll实现图片文件转换PDF格式文件
winform 实现选择文件和选择文件夹对话框
ASP利用xhEditor编辑器实现图片上传的功能。
winform c#中子窗体关闭刷新父窗体
ASP.NET js控制treeview中的checkbox实现单选功能
js如何获取asp.net服务器端控件的值(label,textbox,dropdownlist,radiobuttonlist等)
ASP.NET C# 登陆窗体限制用户名只输入字母数字以及下划线
GridView通过RowDataBound事件获取字段值、数据源列值
Window.Open()方法详细的参数说明及技巧。
获取GridView中RowCommand的当前索引行(转)

原文地址：https://www.cnblogs.com/ywl925/p/3386882.html