ICML 2014 - 润新知

ICML 2014

今年的ICML在北京举行，于是可以顺便回趟国。6月底的北京，白天热，晚上却也凉快，开会期间天气都非常不错，很给面子。不过会前在北京玩的几天却一般，风云难测。还记得刚下飞机的时候，明显感觉到呼吸的空气就如同几十年的老房子里面散发出的腐朽湿气，那天天气也确实差，但国内的空气质量真是堪忧，该下决心治治了。

ICML第一次在中国举行，会场在北京的BICC。外面看起来不错，但里面却不如想象的好。ICML期间还有好几个会也在BICC开，楼里鱼龙混杂，给人感觉也并不太好。尤其最初几天北京男科论坛也在同一个会场开，每每路过，都让人觉得对比过于鲜明实在想笑。好在外国友人大都不知道隔壁开的是什么会。

虽然会场一般，组织工作也一般，但论文质量还是不错的，有不少有意思的东西，照例总结一下，列个清单。这次由于有自己的paper和一篇workshop，会前准备又很不足，所以之得在会议进行中来准备，不少talk都miss掉了或者没认真听，没列出来只能日后看文章了。

6月21号的tutorial，主要去了Frank-Wolfe和probabilistic programming。Frank-Wolfe是最近几年炒起来的一种新的optimization方法，其实是老方法很早就有了，只不过最近又被人从历史里挖出来发现还有点用。基本的setting是一个constrained convex optimization，objective有时很复杂，又加上constraint不好直接优化。Frank-Wolfe的想法是找一个linear lower bound，然后在constraint set上优化这个linear lower bound，这样就简单很多。Frank-Wolfe是一个迭代算法，每一步解决这个linear lower bound的优化问题，解完之后朝着这个最优解走一小步，有一些步长选择有理论保障。Frank-Wolfe的另一个很好的性质是如果constraint都是linear constraint，那么这个linear lower bound优化问题就是一个linear programming，则最优解必在constraint set的顶点上取得，这样每一步更新时都是朝着某个顶点走一小步。如果顶点集比较小，则linear lower bound优化用穷举顶点的办法就可以解。这个稀疏性在不少问题上都比较有用。

probabilistic programming感觉有点像machine learning toolbox，但比一般的toolbox更底层，可以支持各种模型组件的更底层组合，造出新的model。有一些开源的软件，可以尝试。

6月22号：

A Deep and Tractable Density Estimator，是用feed-forward neural net做一个density estimator。例如有一个joint distribution p(x,y,z)，可以分解为p(x)p(y|x)p(z|x,y)。然后neural net用来学conditional distribution p(y|x)和p(z|x,y)，就像neural language model里面那样。遇到的问题是joint distribution分解有指数量级种不同的分解方法，他们于是提出用sampling方法来优化一个expected loss，使得问题变得tractable。

Linear and Parallel Learning of Markov Random Fields提出了一个非常有意思的想法。考虑一个factor graph表示的MRF，要学这个MRF通常很难，因为inference复杂。但考虑某一个factor，比如就MRF中的一条连接两个变量的边，那么这两个变量的marginal distribution中，这个pairwise factor其实是和原来的joint graphical model中的factor是完全一样的，marginal distribution中就是unary factor有变化。根据这一观察，我们可以通过学marginal distribution来学原来的graphical model中的factor，学完marginal distribution后得到的factor直接就是原来graphical model中的factor。据此，可以把graphical model的学习分解为marginal distribution的学习，后者的model规模远小于前者而且可以大规模并行化。想法非常好，不过不知道实际用起来如何。

Marginal Structured SVM with Hidden Variables，研究了有hidden variable的SSVM问题，提出把hidden variable都marginalize out，而非像之前做的那样max out。做了一个temperature-augmented formulation，优化好像是用的CCCP，具体不记得了。

Spectral Regularization for Max-Margin Sequence Tagging，用spectral方法做structured prediction。spectral方法最近也有不少关注，但我一直没有怎么弄明白，需要花时间研究一下。

On Robustness and Regularization of Structural Support Vector Machines，假定在一个adversarial setting中学习SSVM。这个setting中假定有一个恶意对手可以更改input feature，他们的formulation就是要是的SSVM在最坏情况下尽量好。这种在最坏情况下学习得到的model会对noise更robust。

6月23号：

Multimodal Neural Language Models，做language和其他data比如图像的joint modeling。基本的model还是一个log-bilinear model，不过另外一个modality通过multiplicative interaction来modulate这个neural language model。

Distributed Representations of Sentences and Documents，做的和上面的文章其实很相似，只不过是把sentence和document作为另一个modality，方法是把另一个modality作为additive bias放到neural language model中。很多实验效果都不错。

另外Neural Language and Speech这个session里有两篇做character level language model的文章。

Towards End-To-End Speech Recognition with Recurrent Neural Networks做的是end-to-end speech recognition，直接用一个LSTM-RNN，不需要传统的alignment步骤。效果似乎也不错。

Min-Max Problems on Factor Graphs，做的是factor graph上的min-max问题。可以理解为每一个factor代表一个constraint/penalty，然后要找到一组变量的赋值，使得这些constraint/penalty中最大的那个最小。解决问题的办法好像是首先从pdf到cdf的转化，然后用了一个sampling annealing的方法。这个问题本身是有意思的。

A Divide-and-Conquer Solver for Kernel Support Vector Machines，提出一种解决kernel SVM learning的分治方法。kernel SVM learning在dual里面做，分治法把data进行clustering，然后在每个cluster里面做kernel SVM learning，这个和joint learning的区别实际上就是用一个分块对角的kernel矩阵，把非对角元素都设成0。另一种解释方法是support vector都是比较有代表性的元素，把data cluster之后，每个cluster选一些有代表性元素，凑在一起也是整个dataset的有代表性元素。文章给出了一个理论结果，说明这样做得到的support vector和做joint learning得到的support vector的误差和cluster结果的关系。实验说明先做clustering然后在每个cluster上做training，效果就已经很不错，再做几轮joint learning，可以进一步提升，但比较耗时。

Structured Generative Models of Natural Source Code，做的应用是source code generation，比较有趣。做法是根据编译器给出的parse tree，generate每一个节点的内容，用的model类似RNN。可以用在一些IDE上，debug也可以用。

6月24号：

Graph-based Semi-supervised Learning: Realizing Pointwise Smoothness Probabilistically，做的graph-based SSL。大多数graph-based方法在graph每条边上加一个smoothness penalty，然后总的penalty是所有这些penalty之和。这篇文章argue说这并不一定好，使用了一个constraint-based方法。

Local Ordinal Embedding，做的是neighborhood embedding。与SNE之类的方法不一样，这个LOE不需要用到原空间的distance measure，只需要知道locally谁比谁更近或更远就可以，这个就是ordinal information。这是一个比distance measure更弱的信息，也会应用更广泛。embedding的objective是一个pairwise objective，优化用的类似EM的方法，好处是没有tuning parameter。还有一个理论结果，探讨了ordinal information recover原来的metric space的条件和结果，是一个很完整的工作。

Preserving Modes and Messages via Diverse Particle Selection，做的是continuous graphical model中的inference。continuous model非Gaussian的一般都做不了，因为积分算不出来。再就是有一些sampling based particle filtering的方法，但维度一高基本上就没什么用，因为要cover所有重要的mode需要的particle太多。这篇文章也是希望cover mode，但用的是类似minimax的方法，而非sampling，这样对particle的利用就更高效。虽然精确解解不出来，但用贪心效果也不错。可以考虑把这个方法做到离散graphical model的情况。

Understanding the Limiting Factors of Topic Modeling via Posterior Contraction Analysis，是今年ICML的最佳论文，作者来自北大。不知道是不是国内学者第一次在ICML上得到这个奖。文章做的是一个理论工作，探讨了topic model中学到的topic和真实topic之间的error与三个因素之间的关系：文章数量、文章平均长度（词数）、topic个数。得到了一个用这三个变量表示的error bound，可以解释一些现象。talk中没有看到很深刻的数学，bound本身的形式并不复杂，不过也可能复杂的部分都留在文章里面了。

6月25号workshop第一天，早上到会场溜了一圈，New Lerning Framewoks and Models for Big Data有一些不错的speaker，其他的几个溜了一圈都没找到什么有意思的东西。因为好奇还去Machine Learning in China这个workshop看了一下，大家都用中文在交流，居然还有几个老外也在会场，不知道他们在凑什么热闹。遇到腾讯的一个总监讲完，观众开始提问。一个哥们起来问腾讯是不是储存了所有用户数据，还有些隐私保护之类的东西，让人感觉比较无语，大好的讨论学术问题的机会被浪费在这种八卦上。兴味索然，于是开溜去见同学了。

6月26号workshop第二天，一整天都呆在learning tractable probabilistic model workshop，因为有一篇自己的poster。上午Pedro关于SPN的tutorial讲的非常清楚。Tony Jebara关于perfect graph的talk讲了一些有意思的东西。perfect graph有一些很好的性质，有很多的操作在perfect graph上可以很efficient。如果能把原来的graphical model或者graph表示的问题转化为perfect graph，那很多事情可以变得efficient。听上去不错，但不是太懂，值得再回过去看一下。另有几篇workshop paper值得一看：

Exploring Structure for Tractable Nonconvex Optimization，去年NIPS workshop就见到了这篇，以为只是做了一个primal decomposition，但这次细看才知道做的是approximate decomposition，意思是condition on一部分variable，剩下的只是近似可以分解。但近似分解还是差不多可以分解，文章研究了近似的好坏和最后优化效果的关系。

Exchangable Variable Models，探讨了对称性模型，利用对称性很多事情也可以变得更efficient。

另有一篇SPN for structured prediction的文章加在下面list里。

下面是一些没看但听说不错或者看标题觉得有意思的文章：

Globally Convergent Parallel MAP LP Relaxation Solver using the Frank-Wolfe Algorithm

Inferning with High Girth Graphical Models

Scalable Gaussian Process Structured Prediction for Grid Factor Graph Applications

Recurrent Convolutional Neural Networks for Scene Labeling

Hierarchical Conditional Random Fields for Outlier Detection: An Application to Detecting Epileptogenic Cortical Malformations

Ensemble Methods for Structured Prediction

Learning Ordered Representations with Nested Dropout

Efficient Gradient-Based Inference through Transformations between Bayes Nets and Neural Nets

Multiresolution Matrix Factorization

A Unified Framework for Consistency of Regularized Loss Minimizers

Aggregating Ordinal Labels from Crowds by Minimax Conditional Entropy

On Measure Concentration of Random Maximum A-Posteriori Perturbations

Discrete Chebyshev Classifiers

Provable Bounds for Learning Some Deep Representations

Global graph kernels using geometric embeddings

Efficient Label Propagation

Statistical Analysis of Stochastic Gradient Methods for Generalized Linear Models

New Primal SVM Solver with Linear Computational Cost for Big Data Classifications

Margins, Kernels and Non-linear Smoothed Perceptrons

Stochastic Variational Inference for Bayesian Time Series Models

Sum-Product Networks for Structured Prediction: Context Specific Deep Conditional Random Fields

总的回顾起来，deep learning是越来越火了，IMLS business meeting时看到的数据说deep learning neural net已经成为ICML最火爆的领域，有最多的录用paper。另外百度这次比较风光，展台占的位置最好，而且banquet上Andrew Ng还独占舞台讲了好一会儿做广告，百度还有小规模的晚宴，专门定向招人。业界对machine learning的需求还非常大，整个行业也在朝更智能化的方向发展。不过学术上没有看到什么特别突出的、可以称得上是breakthrough的亮点，这是参加了这些会议以后给我的一贯感觉。不过会上能认识一些人，也已经很不错了。
相关阅读:
PHP foreach 循环
 C#导出Excel时间格式问题
 vs2015 key
C# 的Chart
线程暂停与继续实现
 CCNA网络工程师学习进程（2）基本的网络设备
 CCNA网络工程师学习进程（1）网络的基本概述
 安卓学习进程（3）安卓开发工具的简介
 安卓学习进程（2）Android开发环境的搭建
 安卓学习进程（1）移动平台开发的简介
原文地址：https://www.cnblogs.com/alexdeblog/p/3824301.html