一个星期的NIPS终于开完了,Montreal的会场真是高大上,比去年的又大又新太多,设施很好,组织的也很好。因为离我们近,好多深藏不露的人物都来了,不光machine learning,好多vision,NLP和compbio的人也都来了,甚至Radford Neal这种鄙视publication的都出现了。NIPS感觉整体水平还是比ICML高一点,我喜欢NIPS的single track,促进领域间的互相了解,ICML多个track同时进行让人很容易就错过一些有意思的内容。
Montreal在北美是一个很不一样的城市,有点欧洲风。长期以来Montreal都是加拿大最大的城市,直到最近几十年才在经济和人口上被Toronto超过。Montreal还是世界上第二大说法语的城市,仅次于巴黎。不知道为什么,法语听起来觉得比英语悠闲一些,更有历史底蕴。可惜开会期间一直下雪,不方便在外面走,所以也没怎么出去玩。Montreal的冬天很冷,连接五大湖和大西洋的河道穿城而过,也带来相对更多的降水量,所以雨雪也更多一些。当地人应对寒冷冬天修建了大规模的地下通道系统,不光起了通道作用,也有商铺、餐馆娱乐设施汇集。这次住的酒店和会议中心就有地下通道连接,所以平时出门外面冰天雪地我们却连外套都不用穿。
做点学术上的总结吧。我在前一篇博文里提到的A* sampling得到了本届的Outstanding paper award,看来NIPS award committee跟我意见一致还是很有眼光的 :D,虽然这个文章我还是不是很懂。。。另一篇Outstanding paper award的作者Anshumali我居然也认识,暑假也在MSR做了intern,参加intern活动puzzle day我们还在同一个队上,虽然最后我们队排到倒数前二十,但have fun的目的还是达到了。
星期一的tutorial现在都想不起来学了些什么了。Chandra Chekuri做了一个关于最近一些关于large tree-width graph的进展的tutorial,不过不能完全follow。其他的基本上都没什么印象了。
这届NIPS的invited talk阵容还是很豪华的:
- Yurii Nesterov:optimization领域里面的神级人物,讲了怎么做huge-scale的optimization。他讲到随着数据越来越多,computation要从O(n)降到O(log n)才行,log n连把数据都读一遍都不够,就必须利用sparsity。
- 另外一个印象很深的是John Hopfield,算是computational neural science的祖宗级人物吧,三十年前NIPS初创就是Hopfield身边的一帮人搞起来的,也是桃李满天下。可惜真是老了。不过江山代有才人出,后继有人。
- 其他的大都不是很熟,好多都没赶上开头,也印象不是很深。
说说论文:
星期二
* A Differential Equation for Modeling Nesterov’s Accelerated Gradient Method: Theory and Insights
用differential equation来解释Nesterov's method。
* Inference by Learning: Speeding-up Graphical Model Optimization via a Coarse-to-Fine Cascade of Pruning Classifiers
嗯。。好像错过了这篇文章,但回头看觉得题目挺有意思的。
* Multilabel Structured Output Learning with Random Spanning Trees of Max-Margin Markov Networks
提出了一种把densely connected graph分解成一大堆randomly generated spanning tree的办法,分解完以后每个tree上做MAP inference都容易,learning也容易。有理论分析保证test time依然用这些random tree并在tree上做inference也可以达到很好的结果。
* Learning Distributed Representations for Structured Output Prediction
不光对input data用distributed representation,对output也用distributed representation,这样就可以有information sharing,可以exploit class之间的关系。
* Conditional Random Field Autoencoders for Unsupervised Structured Prediction
可能是因为架在graphical model和deep learning之间所以吸引了比较多关注吧,做的东西想法是对的但是做法我觉得不怎么make sense。
* Asymmetric LSH (ALSH) for Sublinear Time Maximum Inner Product Search (MIPS)
今年的两篇outstanding paper award之一。非常简单的方法在重要问题上得到了很好的效果,也有充分的理论分析。
* Semi-supervised Learning with Deep Generative Models
Deep generative model,加上neural variational inference可以用来做semi-supervised learning。
* Generative Adversarial Nets
一种有意思的generative model,外加有意思的training algorithm。
* Deep Symmetry Networks
一种convolution的generalization,convolution说的是空间shift invariance,这个文章研究的是更普遍的对称性,convolution是对称性的一种特例。
* Sequence to Sequence Learning with Neural Networks
Ilya的oral talk可以找来看一看,不过据说也有人不高兴,像Pedro Felzenszwalb好像听到一半就起身走了。
* Learning to Discover Efficient Mathematical Identities
听上去好像是train了一个language model,然后就可以generate新的数学公式。
* Learning Generative Models with Visual Attention
Application挺酷的。把discriminative model用在sampling中也是一个很好的idea。
* Searching for Higgs Boson Decay Modes with Deep Learning
看了这个title是不是有一种deep learning统一天下的感觉。
* A Multiplicative Model for Learning Distributed Text-Based Attribute Representations
现在所有人都在搞image to text generation了。
星期三
* Decomposing Parameter Estimation Problems
Directed graphical model里如果data都是observed的话,parameter estimation可以完全分解到每一个变量,并达到并行化。这个文章里有hidden variable,所以就通过Markov blanket来对graphical model进行分解,分解后的块儿大一些,但也可以并行地进行parameter estimation。
* Global Sensitivity Analysis for MAP Inference in Graphical Models
做了graphical model MAP inference的sensitivity analysis。sensitivity跟robustness其实是一回事,如果能把这种显式的robustness用在learning里面有希望得到robust的structured predictor。
* Do Deep Nets Really Need to be Deep?
当晚最popular的poster。核心是train完一个deep net之后这个neural net的output distribution包含很多除了prediction以外更丰富的class之间的信息,利用这个可以把一个deep net压缩到一个shallow net,这样prediction time可以大大减少。Geoff Hinton的dark knowledge也是类似的思路,不过视角不一样。
* Learning with Pseudo-Ensembles
另一种在neural net里做regularization的方法,跟contractive auto-encoder很像,也可以做semi-supervised learning。
* From MAP to Marginals: Variational Inference in Bayesian Submodular Models
用submodular energy function定义一个probabilistic distribution,在这个probabilistic distribution中可以做类似普通graphical model的“variational” marginal inference。之前好像大多用submodular function的都是做MAP,没有probabilistic model。
* Learning to Search in Branch and Bound Algorithms
通过learning的方法来做branch and bound中的pruning。
* Convex Deep Learning via Normalized Kernels
感觉Convex deep net的idea可以用来invert一个generative deep model。
* A* Sampling
今年NIPS的两篇outstanding paper award之一。如果你的distribution维度较低但很复杂,可以考虑使用。
* Large-Margin Convex Polytope Machine
类似于ensemble的一种方法。做binary classification的时候每一个class用多于一个的basis去表示。
* Unsupervised Transcription of Piano Music
应用挺有意思的。
星期四
* Discriminative Unsupervised Feature Learning with Convolutional Neural Networks
描述了一种训练用discriminative training做unsupervised feature learning的方法。在unsupervised learning setting中,没有label怎么做discriminative training呢?他们的想法很有意思,每个image自成一个class,每个class的训练数据通过把那个image做各种各样的transformation(shift/rotation/etc.)得到。这样一来,学到的feature就能invariant to各种transformation,同时又保留必要的信息,能和其他的image区分开来。缺点是每个image自成一类的话这个方法不够scalable,数据量一大class数量就会很大,这个方法就不那么work了。
* Modeling Deep Temporal Dependencies with Recurrent "Grammar Cells"
加强版LSTM,每一个memory cell不是一个vector而是有结构的grammar cell。
* Recurrent Models of Visual Attention
让convnet能够学到attention model,做prediction的时候不用看整个image,而是只看一个局部,这样就省了时间,而且也和人的vision过程更相近。attention是通过把图像限定在一个局部来实现的,但这个image cropping的操作是不连续的,所以没法直接backprop。不过这个model可以用神奇的reinforcement learning的方法来学。
* Unsupervised learning of an efficient short-term memory network
学到了导数和recurrence之间的关系。可以通过求导来得到recurrent network。
* Message Passing Inference for Large Scale Graphical Models with High Order Potentials
提出一种有效地进行parallel message passing的方法,不过要彻底理解我还需要学习一下region graph。
* Efficient Inference of Continuous Markov Random Fields with Polynomial Potentials
证明了偶数阶多项式energy的MRF都可以被拆成一个convex部分和一个concave部分的和。这样拆分后再做MAP inference能更有效地利用结构信息。
* Hardness of parameter estimation in graphical models
有意思的理论文章,说明了在特定的一类graphical model中,把data转化成sufficient statistics并不是最好的做法。也说明了另一些hardness result。这个idea有可能推广到其他的graphical model。
* Sequential Monte Carlo for Graphical Models
用sequential Monte Carlo的办法来从复杂的graphical model中进行采样。sampling和learning还可以同时进行。
* Joint Training of a Convolutional Network and a Graphical Model for Human Pose Estimation
提供了一些初步的结合convnet和graphical model的办法。
* Clamping Variables and Approximate Inference
通过把一些关键的变量固定的方法来分解graphical model,使得inference更容易也得到更tight的bound。
* Diverse Randomized Agents Vote to Win
做了一个下围棋的应用,很有意思。
* Augmentative Message Passing for Traveling Salesman Problem and Graph Partitioning
把TSP问题model成一个factor graph,然后在这个graph上跑message passing inference可以有效地得到近似解。不过没有理论上的近似保证。
Workshop:
我有一点不喜欢NIPS的workshop,因为所有workshop同时进行,而且都是一整天,很容易就错过了。不过很多workshop都有很多有意思的内容,有时候也觉得一天都不够尽兴。
这届NIPS最火的依然是deep learning workshop,独占最大的会场,容纳六百多人,估计跟很多其他的小型conference差不多规模了。第一个talk是来自Oxford的Phil Blunsom,讲了用convnet用在sentence representation learning上。Phil最近刚刚被买到deepmind。有意思的是Geoff Hinton给了第二个talk,但不是invited talk,而是他与Orial Vinyals和Jeff Dean投了一篇workshop paper,被workshop接收为oral,亏得没有被拒。Geoff给完talk之后的后面一个invited speaker显然被镇住了,紧张得不行。
另外几个印象深点儿的talk:一个是前NVIDIA员工,现百度员工,cuDNN作者介绍NVIDIA GPU对neural network的原生支持,有硬件厂商配合,以后写出来的neural net GPU代码肯定会更快。Vlad介绍了最近reinforcement learning和deep learning结合的工作,game play还有attention model。Stanford搞统计物理的Surya Ganguli讲了一些deep learning的理论问题,提供了看问题的一些新视角。
当天另外就只在learning semantics workshop待了一会儿,不过很有意思。赶上Berkeley的Alyosha Efros、Duke的Jeffrey Siskind还有MSR的Larry Zitnick讨论最近image to text generation的进展。Jeffrey Siskind在talk中搞笑的批评了现在“state-of-the-art”的方法,并举例说他们结果都非常烂。结果遭致全场抨击,因为他完全不了解最近这一块的新进展,所引用的“state-of-the-art”结果还是去年的结果,另外他自己提出的方法结果弱得多得多。不过勇于抛出controversial的观点对讨论是有帮助的,但批评别人之前还是先了解好批评的是什么比较好。
第二天因为我自己有一个poster,所以大部分时间都待在Transfer and Multitask Learning那里,这个workshop不咋地,但也没办法。Representation and learning of complex outputs更对我胃口,但错过了好多东西。有一个关于high energy particle physics的workshop也在这天,感觉machine learning在自己圈子之外的影响是越来越大,对我们这些从业者来说,这是一个好时代,也是一个有机会做出东西的时代。