• [主动学习--查询策略] 01 Core-set


    符号定义

    • 主动学习每一次迭代选择的样本数量为一个 budget
    • 训练集中初始无标签数据集记为 unlabeled data,(m{u}^0)
    • 训练集中初始有标签数据集记为 initial labeled data,(m{s}^0)

    查询策略:Core-set

    k-Center-Greedy

    主动学习每一轮将选择 budget 个样本,core-set 方法将这个过程视为寻找一个当前最佳集合的问题,顺序从 unlabeled data 中选出 budget 个样本加入集合 (m{s}),新加入的点 (u) 需要满足与集合 (m{s}) 的距离最大。

    一个无标记样本点 (u) 与集合 (m{s}) 的距离为:该点 (u) 与集合 (m{s}) 各个点距离的最小值,论文中距离采用 L2-norm。

    注意:同一次迭代选出的无标记样本点有先后之分,计算点 (u) 与集合 (m{s}) 的距离时,同一次迭代已经选出的无标记样本点都看作加入了集合 (m{s}),参与距离计算。

    Robust k-Center

    在 k-Center-Greedy 的基础上,进行修改。通过 k-Center-Greedy,得到无标记数据集中距离 (s^g) 最远的距离,设为 (delta_{2-OPT}),此时所有的样本点都会在包括在这个半径 (delta_{2-OPT}) 内。

    计算 Feasible 函数,去找到一组符合 Feasible 函数的解(可以理解是 (u_i, omega_{i, j}, xi_{i, j}) 这些值),使得 Feasible 内所有约束条件都满足,如果找到了,那么说明此时的半径 (delta) 不会使 outlier 的数量超过自己定的界限 (Xi),半径 (delta) 可以缩小,即缩小上界 (ub);如果没有找到,那么说明此时的半径 (delta) 会使得 outlier 数量超过界限 (Xi),需要扩大半径,即扩大下界 (lb)。(outlier 为不能被 (s^0 cup s^1) 中元素在半径 (delta) 内覆盖到的样本)

    直到最后,(ub - lb) 相等或者相差不大,算法停止。

    算法详情


    Algorithm 2 用 Gurobi 进行 MIP(mixed integer program)优化,运行较慢。Algorithm 1 比 Algorithm 2 简单,速度很快,但论文中效果稍微不如后者。

    实现代码

    GitHub - ozansener/active_learning_coreset (Source code)
    GitHub - google/active-learning/sampling_methods/kcenter_greedy.py
    GitHub - dsgissin/DiscriminativeActiveLearning/query_methods.py

    提出论文:

    Sener, O., & Savarese, S. (2018). Active Learning for Convolutional Neural Networks: A Core-Set Approach. In ICLR (pp. 1–13). Retrieved from http://arxiv.org/abs/1708.00489

    被引论文:

    [1] Yoo, D., & Kweon, I. S. (2019). Learning Loss for Active Learning. CVPR, 93–102. Retrieved from http://arxiv.org/abs/1905.03677
    [2] Sinha, S., Ebrahimi, S., & Darrell, T. (2019). Variational Adversarial Active Learning. ICCV. Retrieved from http://arxiv.org/abs/1904.00370

  • 相关阅读:
    Binary Tree Level Order Traversal II
    图和图的遍历算法
    Remove Duplicates from Sorted List
    Binary Tree Preorder Traversal
    Merge Sorted Array
    [POJ2774][codevs3160]Long Long Message
    [BZOJ2251][2010Beijing Wc]外星联络
    [BZOJ1692][Usaco2007 Dec]队列变换
    [BZOJ1717][Usaco2006 Dec]Milk Patterns 产奶的模式
    [BZOJ1131][POI2008]Sta
  • 原文地址:https://www.cnblogs.com/wuliytTaotao/p/11509306.html
Copyright © 2020-2023  润新知