问题提出
针对链接预测任务,先前的工作倾向于使用浅层和简单的模型,如翻译模型和双线性模型,但存在表现力差的问题;为了增加模型的表现力,产生了更加深层和复杂模型,如神经网络架构,但容易过拟合。
接着作者引入了ConvE模型,相对于之间的模型,ConvE模型的优点是表现力强、参数效率高,但仍存在问题,ConvE模型不足以全面捕获输入实体和关系之间的交互,仅在输入实体和关系的矩阵邻接的区域中建模交互。
为了最大化实体和关系的交互,作者提出了ConvR模型。
模型架构
第一步:给定一个三元组,将关系表征拆分并重塑成一组过滤器;
第二步:将头实体的关系表征重塑,作为卷积层的输入;
第三步:使用过滤器在输入上卷积,捕获每个过滤器(关系表示的一部分)与输入(实体表征)的不同区域之间的交互;
第四步:将卷积特征投影并与尾实体的表征相匹配。
与ConvE做对比,ConvE使用的是全局过滤器,而ConvR使用的是关系表征构建出来的自适应过滤器
模型训练
1对N评分,dropout防止过拟合,批归一化加快收敛的速度,标签平滑,Adam优化器
损失函数为交叉熵的形式:
实验
实验一:性能比较。在WN18、WN18RR、FB15k、FB15k-237四个数据集上进行链接预测实验
从实验效果上来看,还不错,相对于ConvE有了很大的提升。
实验二:参数效率。
调整过滤器的大小和数量对ConvR的性能影响不大