1. SemStyle: Learning to Generate Stylised Image Captions using Unaligned Text(2018 CVPR)
主要研究方向:本论文主要是做语言风格,就是对同一张图片有多种描述。
2. Neural Baby Talk(2018 cvpr)
主要研究内容:对于图片的描述更多的应该是基于图像内容,而不是基于语言模型去推理;如果是非常见场景,那么模型就差强人意。
3. Bottom-Up and Top-Down Attention for Image Captioning and Visual Question Answering(2018 CVPR)
主要研究内容:针对attention之前输入的是均等化图片格子,而不是具体的如同人眼观察到的图像内容,故而本论文是先用faster-RCNN检测得到feature map,而后对其加权,再进行转化为自然语言。
4. GroupCap: Group-based Image Captioning with Structured Relevance and Diversity Constraints
研究motivation:1.当前研究都是基于单张图片,没有基于多张图片去做;2.当前只有多样性的的研究,而没有图片相关性的研究。
应用场景:对于图相册的captioning任务。
数据集:http://mac.xmu.edu.cn/Data_cvpr18.html (基于MSCOCO更改而成)
5. Image Caption Generation with Hierarchical Contextual Visual Spatial Attention
主要研究方向:这里提出的注意力机制考虑了图片region之间的上下文。