基于双注意模型的图像描述生成方法研究论文笔记

基于双注意模型的图像描述生成方法研究论文笔记

当前方法存在的问题

首先，注意模型大多是单词级的局部注意，缺乏对图像整体的掌控。其次，模型在训练和测试之间存在“暴露偏差”。最后，存在训练损失和评估指标不匹配的问题。模型在训练时通常使用交叉熵损失，而在测试时一般使用BLEU、METEOR、ROUGE-L、CLDEr这样的指标来评估生成语句的质量。

本文提出的方法

通过自注意机制从图像中提取语句级的注意信息，来表示生成语句所需的图像全局信息 .在此基础上，结合语句级注意和单词级注意进一步提出了双注意模型，以此来生成更准确的图像描述 .通过在模型的中间阶段实施监督和优化，以解决信息间的干扰问题 .此外，将强化学习应用于两阶段的训练来优化模型的评估度量 .

为了能结合两种注意的优势，生成更加准确的描述，进一步提出了双注意模型，通过集成两种注意模型来生成最终的描述语句 .最后，为了解决“暴露偏差”和损失-评估不匹配问题，将强化学习应用于两阶段训练方法来优化模型的评估度量。

此外，本文方法在模型的损失中加入了双随机注意正则化 .在上下文注意模型中，视觉注意随着上下文信息的变化而不断变化 .为了防止一些区域的特征丢失，通常在模型的训练损失中加入双随机注意正则化。

但是，当两种注意结合在一起时，不可避免地会导致信息间的相互干扰 .因此，本文在模型的中间阶段实施监督和优化，使用多任务学习方法将两个单注意模型的损失添加到最终的训练损失中，以调节两个单注意模型在每个时间步的输出，以此来解决两个模型信息间的干扰问题

训练时将强化学习方法应用于两阶段的训练，一阶段是优化单注意模型生成的描述，使用单注意模型自身生成的语句来作为基线，二阶段是优化模型最终生成的描述，不仅使用模型最终生成的语句来作为基线，而且还将一阶段中两个单注意模型生成的语句也作为基线

结论与展望

本文首先提出一种基于语句级注意的图像描述生成方法，引入自注意机制提取具有更完整视觉表示的语句级图像特征 .在此基础上，进一步提出了双注意模型，通过对语句级注意和单词级注意的集成使最终模型有更好的生成效果 .此外，本文将强化学习方法运用到两阶段的训练来优化模型的评估度量，大大提升了模型的整体性能 .实验结果表明，双注意模型可以生成更好的描述语句，并且在各项评估指标上优于目前许多先进的模型 .当然，也要看到本文方法需要大量的标注样本，在小数据集上的性能不是很令人满意 .未来打算引入半监督学习和因果推理等技术进一步提升图像描述生成的性能 .
相关阅读:
智慧北京04_自定义下拉刷新
 智慧北京03_菜单详情页_ViewPagerIndicator框架_页签详情页_事件处理
 (转发)RJcente,安卓常用工具
 (转发 )将Eclipse代码导入到Android Studio的两种方式
 智慧北京02_初步ui框架_ 主界面_viewPager事件_xUtils_slidingMenu_网络缓存_数据传递
 智慧北京01_splash界面_新手引导界面_slidingMenu框架_.主界面结构
 自定义控件进阶02_侧滑删除,粘性控件
 一个抽奖H5页面的记录
 分享一个情侣头像小程序，欢迎体验、拍砖
 iPhone X H5页面适配
原文地址：https://www.cnblogs.com/Dearmyh/p/16062055.html