MultimodalSum学习笔记 - 润新知

MultimodalSum学习笔记

自监督的多模态观点摘要

Self-Supervised Multimodal Opinion Summarization

韩国一家游戏公司的工作，ncsoft

2021.5，ACL

https://arxiv.org/pdf/2105.13135

多模态：文本、图像、表格，分别建立模型

问题定义

1 Text Encoder and Decoder

[h_{text} = BART_{enc}(D_{-�j}), d_{j} = BART_{dec}(h_{text}), ]
2 Image Encoder

[h_{img} = ResNet101(I)W_{img}, ]
3 Table Encoder

[f_{k} =ReLU([n_{k};v_{k}]W_{f} +b_{f}), h_{table} = F W_{table}, ]
多模态融合

整体流程

实验

代码

https://github.com/nc-ai/knowledge/tree/master/publications/MultimodalSum
相关阅读:
【转】Java并发编程：深入剖析ThreadLocal
【转】关于Java的Daemon线程的理解
 【转】详细分析Java中断机制
 【转】Java并发编程注意事项
 【转】Java并发编程：volatile关键字解析
 【转】Java并发编程：Lock
【转】JVM运行原理及JVM中的Stack和Heap的实现过程
 【转】Linux常用命令大全
 Linux 命令学习
 js中的prototype和__proto__
原文地址：https://www.cnblogs.com/xuehuiping/p/14845485.html

Copyright © 2020-2023 润新知