• NIPS 2014


    一个星期的NIPS终于开完了,Montreal的会场真是高大上,比去年的又大又新太多,设施很好,组织的也很好。因为离我们近,好多深藏不露的人物都来了,不光machine learning,好多vision,NLP和compbio的人也都来了,甚至Radford Neal这种鄙视publication的都出现了。NIPS感觉整体水平还是比ICML高一点,我喜欢NIPS的single track,促进领域间的互相了解,ICML多个track同时进行让人很容易就错过一些有意思的内容。

    Montreal在北美是一个很不一样的城市,有点欧洲风。长期以来Montreal都是加拿大最大的城市,直到最近几十年才在经济和人口上被Toronto超过。Montreal还是世界上第二大说法语的城市,仅次于巴黎。不知道为什么,法语听起来觉得比英语悠闲一些,更有历史底蕴。可惜开会期间一直下雪,不方便在外面走,所以也没怎么出去玩。Montreal的冬天很冷,连接五大湖和大西洋的河道穿城而过,也带来相对更多的降水量,所以雨雪也更多一些。当地人应对寒冷冬天修建了大规模的地下通道系统,不光起了通道作用,也有商铺、餐馆娱乐设施汇集。这次住的酒店和会议中心就有地下通道连接,所以平时出门外面冰天雪地我们却连外套都不用穿。

    做点学术上的总结吧。我在前一篇博文里提到的A* sampling得到了本届的Outstanding paper award,看来NIPS award committee跟我意见一致还是很有眼光的 :D,虽然这个文章我还是不是很懂。。。另一篇Outstanding paper award的作者Anshumali我居然也认识,暑假也在MSR做了intern,参加intern活动puzzle day我们还在同一个队上,虽然最后我们队排到倒数前二十,但have fun的目的还是达到了。

    星期一的tutorial现在都想不起来学了些什么了。Chandra Chekuri做了一个关于最近一些关于large tree-width graph的进展的tutorial,不过不能完全follow。其他的基本上都没什么印象了。

    这届NIPS的invited talk阵容还是很豪华的:

    - Yurii Nesterov:optimization领域里面的神级人物,讲了怎么做huge-scale的optimization。他讲到随着数据越来越多,computation要从O(n)降到O(log n)才行,log n连把数据都读一遍都不够,就必须利用sparsity。

    - 另外一个印象很深的是John Hopfield,算是computational neural science的祖宗级人物吧,三十年前NIPS初创就是Hopfield身边的一帮人搞起来的,也是桃李满天下。可惜真是老了。不过江山代有才人出,后继有人。

    - 其他的大都不是很熟,好多都没赶上开头,也印象不是很深。

    说说论文:

    星期二

    * A Differential Equation for Modeling Nesterov’s Accelerated Gradient Method: Theory and Insights

    用differential equation来解释Nesterov's method。

    * Inference by Learning: Speeding-up Graphical Model Optimization via a Coarse-to-Fine Cascade of Pruning Classifiers

    嗯。。好像错过了这篇文章,但回头看觉得题目挺有意思的。

    * Multilabel Structured Output Learning with Random Spanning Trees of Max-Margin Markov Networks

    提出了一种把densely connected graph分解成一大堆randomly generated spanning tree的办法,分解完以后每个tree上做MAP inference都容易,learning也容易。有理论分析保证test time依然用这些random tree并在tree上做inference也可以达到很好的结果。

    * Learning Distributed Representations for Structured Output Prediction

    不光对input data用distributed representation,对output也用distributed representation,这样就可以有information sharing,可以exploit class之间的关系。

    * Conditional Random Field Autoencoders for Unsupervised Structured Prediction

    可能是因为架在graphical model和deep learning之间所以吸引了比较多关注吧,做的东西想法是对的但是做法我觉得不怎么make sense。

    * Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS)

    今年的两篇outstanding paper award之一。非常简单的方法在重要问题上得到了很好的效果,也有充分的理论分析。

    * Semi-supervised Learning with Deep Generative Models

    Deep generative model,加上neural variational inference可以用来做semi-supervised learning。

    * Generative Adversarial Nets

    一种有意思的generative model,外加有意思的training algorithm。

    * Deep Symmetry Networks

    一种convolution的generalization,convolution说的是空间shift invariance,这个文章研究的是更普遍的对称性,convolution是对称性的一种特例。

    * Sequence to Sequence Learning with Neural Networks

    Ilya的oral talk可以找来看一看,不过据说也有人不高兴,像Pedro Felzenszwalb好像听到一半就起身走了。

    * Learning to Discover Efficient Mathematical Identities

    听上去好像是train了一个language model,然后就可以generate新的数学公式。

    * Learning Generative Models with Visual Attention

    Application挺酷的。把discriminative model用在sampling中也是一个很好的idea。

    * Searching for Higgs Boson Decay Modes with Deep Learning

    看了这个title是不是有一种deep learning统一天下的感觉。

    * A Multiplicative Model for Learning Distributed Text-Based Attribute Representations

    现在所有人都在搞image to text generation了。

    星期三

    * Decomposing Parameter Estimation Problems

    Directed graphical model里如果data都是observed的话,parameter estimation可以完全分解到每一个变量,并达到并行化。这个文章里有hidden variable,所以就通过Markov blanket来对graphical model进行分解,分解后的块儿大一些,但也可以并行地进行parameter estimation。

    * Global Sensitivity Analysis for MAP Inference in Graphical Models

    做了graphical model MAP inference的sensitivity analysis。sensitivity跟robustness其实是一回事,如果能把这种显式的robustness用在learning里面有希望得到robust的structured predictor。

    * Do Deep Nets Really Need to be Deep?

    当晚最popular的poster。核心是train完一个deep net之后这个neural net的output distribution包含很多除了prediction以外更丰富的class之间的信息,利用这个可以把一个deep net压缩到一个shallow net,这样prediction time可以大大减少。Geoff Hinton的dark knowledge也是类似的思路,不过视角不一样。

    * Learning with Pseudo-Ensembles

    另一种在neural net里做regularization的方法,跟contractive auto-encoder很像,也可以做semi-supervised learning。

    * From MAP to Marginals: Variational Inference in Bayesian Submodular Models

    用submodular energy function定义一个probabilistic distribution,在这个probabilistic distribution中可以做类似普通graphical model的“variational” marginal inference。之前好像大多用submodular function的都是做MAP,没有probabilistic model。

    * Learning to Search in Branch and Bound Algorithms

    通过learning的方法来做branch and bound中的pruning。

    * Convex Deep Learning via Normalized Kernels

    感觉Convex deep net的idea可以用来invert一个generative deep model。

    * A* Sampling

    今年NIPS的两篇outstanding paper award之一。如果你的distribution维度较低但很复杂,可以考虑使用。

    * Large-Margin Convex Polytope Machine

    类似于ensemble的一种方法。做binary classification的时候每一个class用多于一个的basis去表示。

    * Unsupervised Transcription of Piano Music

    应用挺有意思的。

    星期四

    * Discriminative Unsupervised Feature Learning with Convolutional Neural Networks

    描述了一种训练用discriminative training做unsupervised feature learning的方法。在unsupervised learning setting中,没有label怎么做discriminative training呢?他们的想法很有意思,每个image自成一个class,每个class的训练数据通过把那个image做各种各样的transformation(shift/rotation/etc.)得到。这样一来,学到的feature就能invariant to各种transformation,同时又保留必要的信息,能和其他的image区分开来。缺点是每个image自成一类的话这个方法不够scalable,数据量一大class数量就会很大,这个方法就不那么work了。

    * Modeling Deep Temporal Dependencies with Recurrent "Grammar Cells"

    加强版LSTM,每一个memory cell不是一个vector而是有结构的grammar cell。

    * Recurrent Models of Visual Attention

    让convnet能够学到attention model,做prediction的时候不用看整个image,而是只看一个局部,这样就省了时间,而且也和人的vision过程更相近。attention是通过把图像限定在一个局部来实现的,但这个image cropping的操作是不连续的,所以没法直接backprop。不过这个model可以用神奇的reinforcement learning的方法来学。

    * Unsupervised learning of an efficient short-term memory network

    学到了导数和recurrence之间的关系。可以通过求导来得到recurrent network。

    * Message Passing Inference for Large Scale Graphical Models with High Order Potentials

    提出一种有效地进行parallel message passing的方法,不过要彻底理解我还需要学习一下region graph。

    * Efficient Inference of Continuous Markov Random Fields with Polynomial Potentials

    证明了偶数阶多项式energy的MRF都可以被拆成一个convex部分和一个concave部分的和。这样拆分后再做MAP inference能更有效地利用结构信息。

    * Hardness of parameter estimation in graphical models

    有意思的理论文章,说明了在特定的一类graphical model中,把data转化成sufficient statistics并不是最好的做法。也说明了另一些hardness result。这个idea有可能推广到其他的graphical model。

    * Sequential Monte Carlo for Graphical Models

    用sequential Monte Carlo的办法来从复杂的graphical model中进行采样。sampling和learning还可以同时进行。

    * Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation

    提供了一些初步的结合convnet和graphical model的办法。

    * Clamping Variables and Approximate Inference

    通过把一些关键的变量固定的方法来分解graphical model,使得inference更容易也得到更tight的bound。

    * Diverse Randomized Agents Vote to Win

    做了一个下围棋的应用,很有意思。

    * Augmentative Message Passing for Traveling Salesman Problem and Graph Partitioning

    把TSP问题model成一个factor graph,然后在这个graph上跑message passing inference可以有效地得到近似解。不过没有理论上的近似保证。

    Workshop:

    我有一点不喜欢NIPS的workshop,因为所有workshop同时进行,而且都是一整天,很容易就错过了。不过很多workshop都有很多有意思的内容,有时候也觉得一天都不够尽兴。

    这届NIPS最火的依然是deep learning workshop,独占最大的会场,容纳六百多人,估计跟很多其他的小型conference差不多规模了。第一个talk是来自Oxford的Phil Blunsom,讲了用convnet用在sentence representation learning上。Phil最近刚刚被买到deepmind。有意思的是Geoff Hinton给了第二个talk,但不是invited talk,而是他与Orial Vinyals和Jeff Dean投了一篇workshop paper,被workshop接收为oral,亏得没有被拒。Geoff给完talk之后的后面一个invited speaker显然被镇住了,紧张得不行。

    另外几个印象深点儿的talk:一个是前NVIDIA员工,现百度员工,cuDNN作者介绍NVIDIA GPU对neural network的原生支持,有硬件厂商配合,以后写出来的neural net GPU代码肯定会更快。Vlad介绍了最近reinforcement learning和deep learning结合的工作,game play还有attention model。Stanford搞统计物理的Surya Ganguli讲了一些deep learning的理论问题,提供了看问题的一些新视角。

    当天另外就只在learning semantics workshop待了一会儿,不过很有意思。赶上Berkeley的Alyosha Efros、Duke的Jeffrey Siskind还有MSR的Larry Zitnick讨论最近image to text generation的进展。Jeffrey Siskind在talk中搞笑的批评了现在“state-of-the-art”的方法,并举例说他们结果都非常烂。结果遭致全场抨击,因为他完全不了解最近这一块的新进展,所引用的“state-of-the-art”结果还是去年的结果,另外他自己提出的方法结果弱得多得多。不过勇于抛出controversial的观点对讨论是有帮助的,但批评别人之前还是先了解好批评的是什么比较好。

    第二天因为我自己有一个poster,所以大部分时间都待在Transfer and Multitask Learning那里,这个workshop不咋地,但也没办法。Representation and learning of complex outputs更对我胃口,但错过了好多东西。有一个关于high energy particle physics的workshop也在这天,感觉machine learning在自己圈子之外的影响是越来越大,对我们这些从业者来说,这是一个好时代,也是一个有机会做出东西的时代。

  • 相关阅读:
    Hackerrank--Emma and sum of products (FFT)
    Hdu 1402 (FFT)
    Hackerrank--Divisibility of Power(Math)
    Hackerrank--Stock Maximize(DP Practice)
    Codeforces 455B
    vim 简明教程(转自飘过的小牛)
    ACdream 1007 (快速幂)
    编写可维护的JS 02
    编写可维护的JS 01
    图片加载-从模糊到清晰
  • 原文地址:https://www.cnblogs.com/alexdeblog/p/4158937.html
Copyright © 2020-2023  润新知