【机器学习】【神经网络与深度学习】不均匀正负样本分布下的机器学习《讨论集》

【机器学习】【神经网络与深度学习】不均匀正负样本分布下的机器学习《讨论集》
39 条精选讨论（选自165条原始评论和转发）
机器学习那些事儿   2014-11-15 17:48

工业界机器学习典型问题: 正负样本分布极不均匀(通常<1:10000），有什么较好的方案构造训练集的正负样本分布？构造后如何解决训练数据与预测的分布不一致？请大牛帮忙解释下@老师木 @李沐M @星空下的巫师@徐盈辉_仁基

北冥乘海生转发于 2014-11-15 17:50

这个跟模型的形式和估计方法都有关，有些情况下正负例不均衡时估计有偏，可以校正一下。

小兔子大坏坏评论于 2014-11-15 18:25

上采样、下采样、代价敏感，没什么好办法

特级飞行员舒克转发于 2014-12-07 17:27  回复 @phunter_lau

回复@phunter_lau:mark,sampling

范涛_中科大评论于 2014-12-07 17:40 回复 @特级飞行员舒克

这个之前调研过，主要分重采样和欠采样！这种不平衡是因为比率的不平衡给一些学习方法带来问题。但是在某些领域，比如反欺诈和安全，不仅是比率极不平衡，而且是正样本样本绝对数很小。需要扩散正样本方法！

特级飞行员舒克转发于 2014-12-07 17:54

聚类然后从负样本中找和正样本比较紧邻的作为正样本怎么样？@phunter_lau @范涛_中科大 @winsty

范涛_中科大转发于 2014-12-07 17:57

回复@特级飞行员舒克: Synthetic Minority Over-sampling Technique 我试过这个方法，解决部分问题，主要还是需要增加样本在特征空间的覆盖！工程上光靠算法也解决不了问题，有的还是需要加入下经验知识来做。

睡眼惺忪的小叶先森转发于 2014-12-07 18:03  回复 @范涛_中科大

我也说说。抛砖引玉：1，比例是一个关键的参数，据我们的经验，1:14是一个常见的“好”比例。[哈哈] 2，stratified sampling，也就是根据特征来采样，尽量使样本都覆盖特征空间。3，训练的时候，这个正负样本的“出场”顺序也很关键，不然可能还没遇到正（负）样本模型就已经收敛了。

梁斌penny 转发于 2014-12-07 18:05  回复 @特级飞行员舒克

这就是一种伪标注方法，是可行的。当然最后还是需要验证一下效果，来证明这个方法对这类数据是solid的

孙明明_SmarterChina 转发于 2014-12-07 18:16  回复 @梁斌penny

这问题太笼统了。正负样本不平衡只是个表象，处理方法要根据本质原因来定。

齐浩亮转发于 2014-12-07 18:37  回复 @梁斌penny

用排序思想构造所谓的序对，

宋云涛转发于 2014-12-07 18:55

如果1：1０算是均匀的话，可以将多数类分割成为1000份。然后将每一份跟少数类的样本组合进行训练得到分类器。而后将这1000个分类器用assemble的方法组合位一个分类器。记得读到的论文可行，但没有验证过

宋云涛评论于 2014-12-07 18:57

采样的话要么损失信息要么影响数据分布，基本的序对的话也会引起信息的损失～

特级飞行员舒克转发于 2014-12-07 19:55  回复 @Juggernaut_One

回复@Juggernaut_One:我认为有些场景下正负样本之间并没有严格明显的界线，是可以互相转换的。

特级飞行员舒克转发于 2014-12-07 19:59  回复 @Juggernaut_One

回复@Juggernaut_One:在百度实习做广告点击率预估时，曾经想过在模型训练时不用0/1作为label，而是根据特征情况给一个float值（在[0,1]区间周围），或者更简单一些分别对目标值0/1做一些扰动，后来由于某些原因没做成。

wb王传鹏转发于 2014-12-07 20:00

@刘尚堃你说过有不少技巧[哈哈]

离家出走的托尔斯泰转发于 2014-12-08 02:34

这在机器学习里面被称类别不平衡问题，可以参考Haibo, H. and E. A. Garcia (2009). "Learning from Imbalanced Data." Knowledge and Data Engineering, IEEE Transactions on" 的survey.已有很多方法提出

phunter_lau 转发于 2014-12-08 05:02  回复 @梁斌penny

或者试试看Transductive SVM (TSVM) 用当前训练的模型标注新的sample，差不多类似的想法但是我也是听同事说的

小吴COKE 转发于 2014-12-08 05:26  回复 @梁斌penny

聚类本身不是已经默认了相似度测定了么。。。。[汗]

cswhjiang 转发于 2014-12-08 05:33  回复 @phunter_lau

Transductive 是指要求 label 的数据在training 一个model的时候已经确定了，相对于inductive 而言。训练数据和测试数据分布不同是domain adaptation、sample bias、data shift。但是他原先的问题其实是imblance problem，google下能找到方法，比如 http://t.cn/Rzph0Wt

思奇吞象评论于 2014-12-08 05:50

标准解决方法：设计objective function的时候给不同misclassification的情况不同的relative weights。也就是说给从小数量的样本被分成大数量的样本更大的penalty

anch3or 转发于 2014-12-08 07:53  回复 @梁斌penny

@phunter_lau:或者试试看Transductive SVM (TSVM) 用当前训练的模型标注新的sample，差不多类似的想法

孙明明_SmarterChina 转发于 2014-12-08 08:35  回复 @好东西传送门

训练数据与预测数据分布不一致，有专门研究的课题，sample selection bias，主要方法是各种reweighting

机器学习那些事儿转发于 2014-12-08 09:06  回复 @特级飞行员舒克

这应该和半监督的间谍算法类似吧，不过这只能解决抽样问题，没法较好的确定正负样本之间的比例吧？

老师木转发于 2014-12-08 10:12  回复 @梁斌penny

我以前搞过一个support cluster machine，类似的想法，很久以前的工作了，仅可以参考一下。

vinW 评论于 2014-12-08 10:17

按理是跟你的目标有关。如果你的目标是预测的分布跟训练的分布一致，那就加大对分布不一致的惩罚系数就是。

Jason_wbw 转发于 2014-12-08 10:19  回复 @特级飞行员舒克

我理解那么多的负样本的情况下，其实负样本已经并不是真正的`负样本`了，顺带扔个之前被推荐的paperhttp://t.cn/RzpInP3

王小科科科转发于 2014-12-08 10:32

我的处理方式挺简单的，将负样本取样数量减少，然后在计算预测概率的时候，调整常数因子。

晴阴雨雪天各种读书转发于 2014-12-08 11:11  回复 @岩间花树GT

早几年kdd有篇paper解决这个的，其实原理都差不多

微笑刺客4067 转发于 2014-12-08 12:09

关注。。伪标注有时间试一试！

夏睿转发于 2014-12-08 12:50  回复 @孙明明_SmarterChina

Sample selection bias 可以解决一部分预测与训练数据分布不一致(还包括迁移学习、领域适应问题)，不过好像没见过直接用它解决类别不平衡

昊奋转发于 2014-12-08 13:08

抛砖引玉，这个倒是可以参考positive only learning等半监督学习中如早期的spy算法等来构造合适的负例来解决正负例不平衡的问题。在只有正例的学习问题中，负例千差万别，且数量也远超正例，符合楼主的问题描述

AixinSG 转发于 2014-12-08 13:48  回复 @昊奋

这个建议看起来比上采样下采样或者调权重更靠谱

小飞鱼_露转发于 2014-12-08 17:12

这个看起来像 one-class recommendation 问题，不知是否可以考虑转化成 learning to rank 问题，如果不是为了拟合一个分布的话 (PS: 字数不够了...) @AixinSG @昊奋

NeoLScarlet 转发于 2014-12-08 17:14  回复 @算文解字

貌似生成不平衡那边的样本效果最好。

复旦李斌转发于 2014-12-08 17:39  回复 @老师木

于是大家搜出来的都是我的那篇。。。[衰][衰]

离家出走的托尔斯泰评论于 2014-12-08 18:04

个人觉得在类别不平衡条件下，Transductive SVM (TSVM)应该对于的active learning 来标注，可能结果更好。

昊奋转发于 2014-12-08 20:04

learning to rank对于训练数据量的要求较高，同时要确定用于learning to rank的pair，还是需要找到负例，从而将正例和负例形成偏序配对。所以learning to rank是一种方法，但个人认为这会将简单问题复杂化，且本质还是需要去找负例。

开机就好ing 转发于 2014-12-08 21:06  回复 @昊奋

用单类分类算法如svdd也可以

杲a杲评论于 2014-12-09 02:48

感觉都没扯到点子上啊，最经典的imbalanced的方法，cascade learning，详见viola的face detection paper.

在face recognition问题中，每个人的已注册样本一般都只有一张，在one-by-n的recognition时候，如果n较大，则一般positive pairs的数量会远远小于negative pairs的数量。这种情况下，一般如何去balance用于训练的pos 和neg pairs？有没有现成的code去处理类似问题？比如做bootsrap等等。（具体可以参考google的FaceNet那篇文章选取训练样本的方法）

Tackling Class Imbalance with Deep Convolutional Neural Networks

https://www.academia.edu/8472416/Tackling_Class_Imbalance_with_Deep_Convolutional_Neural_Networks

这个和深度学习没关系，类别不平衡是机器学习一个常见问题，有一下几个思路可以参考
1 ：数据采样的时候，可以把数量少的类别重复采样，而把数量多的类别只采样一部分
2：调整损失函数，对样本多的类别进行惩罚
实际工程上，正负样本比或者惩罚系数，需要进行调参

首先: 分清 face recognition/ identification /verification，媒体经常统一用face recognition
“已注册样本一般都只有一张” 感觉是在说 “face identification /verification"（这两略有不同，我更喜欢混为一谈）
identification /verification：这不是recognition,不需要去训练一个分类器 一个注册样本也是可以的，无非是注册的特征不够robust，效果可能差一些，并不存在所谓的“balance pos neg pairs”（如果每一个注册的face都希望有一个特有的threshold的话那是需要一部分pos neg来计算这个threshold）
recognition：问题就变为“如何提升unbalance数据集上的准确率”，这个问题的研究就比较多了可以Google下；negative sample可以生成、“伪造”的；softmax（one vs all）不需要negative sample；sigmoid（对于部分分类任务如：多标签分类，其实蛮适合用sigmoid做神经网络的最终输出的）等大多数分类器正负例的样本均等为好；此外在语音识别中神经网络的训练样本是极为不均衡的；在图像任务中也可以考虑利用下类别的先验概率

首先你要确定为什么需要balance，balance不一定就是好的，我们需要的是同分布，而不是神马balance。
改变分布就有很多科学的方法了。
sample的话，比如MCMC。
还可以生造数据，嗯，就是很火的reinforce。

我试着答一下如有错误请大家指正
问题主要矛盾指不平衡数据处理结论是分两种处理 算法修正和数据修正
然后是正文

数据不平衡是一个很正常的现象在神经网络领域之外已经有很多相关研究了尤其在svm上（笑）
机器学习算法中通常两种方法解决一种是算法上的用算法计算不同输入数据的距离将距离纳入算法训练或者说将距离纳入惩罚函数有很多相关研究手机打没文献搜索imbalance会有很多基于不平衡度和基于图是我知道的两种很好的算法
在深度学习上不平衡的算法处理没有单独拿出来讲的因为随着时代发展这个被视为解决问题中很小的一环更多的是处理transfer learning
深度迁移学习网络基本是深度网络中会涉及不平衡的最重要或者说效果最好的一类但是正如前文所说不平衡的解决只是顺带的
迁移网络解决不平衡最好的例子是deep transfer metric learning，这篇文献类似考虑距离惩罚并且将惩罚纳入了能量函数在根据能量函数做梯度递减迭代时候发挥作用类似的想法肯定可以解决但是似乎有些不合适毕竟transfer learning 解决的是更麻烦一点的问题
代码很少但是theano只改下update函数 caffe改一下能量函数式训练依旧是反向传播可以有预训练不用改

前述麻烦所以有数据采样方法解决数据不平衡
采样解决不平衡分欠采样和过采样两种
但是说在前面数据采样上解决实际是数据预处理的一步了和深度不深度没关系这部分代码很好写因为只操作数据
欠采样就是有的数据不采用过采样就是少数的信息重复采样或者差值拟合出新的少数类信著名的是SMOTE算法
这些方法和信号采样那些很像但是也有一些新的方法和些微不同相关文献看得不多临时想不到

具体用到的时候看你问题定义了不一定要用到这些东西深度网络拟合能力很好不平衡的丢过去很可能只有过拟合问题而不需要特殊处理
文献资料什么的想不起来但是搜索很好搜百度就行因为实验室前辈有做过imbalance data 我也跟过一段时间

数据不平衡是机器学习里面的常见的现象，通常是根据数据类别的分布对损失函数进行加权处理，即正负两类出现误判的惩罚是不同的，比如，样本量小的那一类惩罚会更大，或者也可以在迭代的时候增加样本小的那一类被选中来进行优化的概率，相当于将样本小的那一类的数据人为复制。
相关阅读:
uva 550
uva 10110
uva 10014
uva 10177
uva 846
Dear Project Manager, I Hate You
创业型软件公司的心得
 架构设计的心得
 程序员常去的103个网站
 66个经典源码网站
原文地址：https://www.cnblogs.com/huty/p/8518016.html

【机器学习】【神经网络与深度学习】不均匀正负样本分布下的机器学习 《讨论集》

【机器学习】【神经网络与深度学习】不均匀正负样本分布下的机器学习《讨论集》