• Quaternion Knowledge Graph Embeddings —— 基于四元数的知识图谱嵌入


    论文概览

    在本篇论文中,作者将基于复数的知识图谱嵌入拓展到超复数空间——四元数,每个四元数\(Q\)由一个实数\(r\)和三个虚数单位\(\textbf{i}\)\(\textbf{j}\)\(\textbf{k}\)组成,即\(Q=a+b\textbf{i}+c\textbf{j}+d\textbf{k}\),提出了QuatE模型,该模型通过基于四元数空间的头尾实体之间的关系旋转来建模。

    四元数运算

    本文中提到了四种关于四元数的运算,分别是共轭、范数、内积和Hamilton积。

    1. 共轭。一个四元组Q的共轭被定义为\(\bar{Q}=a-b\textbf{i}-c\textbf{j}-d\textbf{k}\)
    2. 范数,这里引入范数是为了下面将关系四元数归一化为单位四元数。\(\left| Q \right|=\sqrt{a^2+b^2+c^2+d^2}\)
    3. 内积。四元数\(Q_1 = a_1 + b_1\textbf{i} + c_1\textbf{j} + d_1\textbf{k}\)\(Q_2 = a_2 + b_2\textbf{i} + c_2\textbf{j} + d_2\textbf{k}\)之间的内积为对应元素相乘再求和。

    \[Q_1 \cdot Q_2 = \left< a_1,a_2 \right> + \left< b_1,b_2 \right> + \left< c_1,c_2 \right> + \left< d_1,d_2 \right> \]

    1. Hamilton积。Hamilton积遵循分配率,但不遵循交换律。

    \[Q_1 \otimes Q_2 = (a_1a_2 - b_1b_2 - c_1c_2 - d_1d_2) + (a_1b_2 + b_1a_2 + c_1d_2 - d_1c_2)\textbf{i} + (a_1c_2 - b_1d_2 + c_1a_2 + d_1b_2)\textbf{j} + (a_1d_2 + b_1c_2 - c_1b_2 + d_1a_2)\textbf{k} \]

    模型框架

    QuatE模型可大致分为两个步骤,(1) 使用单位关系四元数旋转头部四元数;(2) 在旋转后的头部四元数和尾部四元数之间取四元数内积,对每个三元组进行评分。

    关系四元数单位化

    第一步,将关系四元数\(W_r\)除以其模长\(\left| W_r \right|\)得到单位四元组\(W_{r}^{\vartriangleleft}\),除以范数是为了消除缩放效应,简单来说就是防止头实体通过关系旋转后范数的大小发生变化;

    旋转头实体

    第二步,通过头实体\(Q_h\)与单位关系四元数\(W_{r}^{\vartriangleleft}\)的Hamilton积旋转头实体得到\(W_{h}^{'}\)

    其中,\(\circ\)表示基于元素的乘积,这里跟RotatE一样,假设嵌入维数为k,k维表示用k个四元数表示一个嵌入,基于元素的乘积是指在每一维上单独进行旋转

    计算得分函数

    第三步,将\(W_{h}^{'}\)与尾实体\(Q_t\)作内积,作为链接预测任务中的得分函数,得分函数的值越大,说明\(W_{h}^{'}\)与尾实体\(Q_t\)越接近。

    损失函数

    本文将链接预测任务当作是分类任务,即分辨三元组的真假,因此损失函数为正则化后的logistic损失。

    建模不同类型的关系

    QuatE扩展自ComplEx模型,对对称、非对称和反转关系进行了建模。

    建模对称关系

    对称关系,即\(r(x, y) \Rightarrow r(y, x)\),论文中提到将关系四元数的虚数部分设为0,就可以证明QuatE可以对对称关系建模,但论文中并没有给出证明,一句话带过了。

    下面我们来简单证明一下,设\(W_{r}^{\vartriangleleft}\)的虚数部分全为0:

    • \(r(x, y)\)

    \[Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = [a_h \circ p + (a_h \circ q)\textbf{i} + (a_h \circ u)\textbf{j} + (a_h \circ v)\textbf{k}] \cdot (a_t + b_t\textbf{i} + c_t\textbf{j} + d_t\textbf{k}) = \left< a_h, p, a_t \right> + \left< a_h, p, b_t \right> + \left< a_h, p, c_t \right> + \left< a_h, p, d_t \right> \]

    • \(r(y, x)\)

    \[Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h = [a_t \circ p + (a_t \circ q)\textbf{i} + (a_t \circ u)\textbf{j} + (a_t \circ v)\textbf{k}] \cdot (a_h + b_h\textbf{i} + c_h\textbf{j} + d_h\textbf{k}) = \left< a_t, p, a_h \right> + \left< a_t, p, b_h \right> + \left< a_t, p, c_h \right> + \left< a_t, p, d_h \right> \]

    对比上面两个公式,显然结果是一样的,即\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)

    建模非对称关系

    非对称关系,即\(r(x, y) \Rightarrow \urcorner r(y, x)\)。为了建模非对称关系,我们需要证明虚数部分非0时,\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t \neq Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)

    • \(r(x, y)\)

    • \(r(y, x)\)

    这两个公式部分项的符号是不一样的,因此\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t \neq Q_t \otimes W_{r}^{\vartriangleleft} \cdot Q_h\)

    建模反转关系

    反转关系,即\(r_1(x, y) \Rightarrow \urcorner r_2(y, x)\)。本文利用四元数的共轭来实现反转关系的建模,证明\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes \bar{W_{r}^{\vartriangleleft}} \cdot Q_h\)

    显然,\(Q_h \otimes W_{r}^{\vartriangleleft} \cdot Q_t = Q_t \otimes \bar{W_{r}^{\vartriangleleft}} \cdot Q_h\)

    实验

    数据集

    WN18, FB15K, WN18RR和FB15K-237

    评价指标

    MR、MRR和Hits@N

    基线

    对于基于翻译的模型,选用TransE、TorusE和RotatE作为基线;对于基于语义匹配的模型,选用DisMult、HolE、ComplEx、SimplE、ConvE、R-GCN和KNGE作为基线。

    链接预测结果

    在WN18和FB15K数据集上链接预测的结果:

    在WN18RR和FB15K-237数据集上链接预测的结果:

    \(QuatE^1\)没有类型限制,\(QuatE^2\)带有N3正则化和相互学习,\(QuatE^3\)有类型限制,对于类型限制和相互学习,文中并没有给出相应的解释,这里我也没太弄懂。

    从模型的效果上看,\(QuatE^2\)在FB15K和FB15K-237上提升很大,证明了N3正则化和相互学习的有效性

    对照实验

    共设置了三个对照实验,对照实验一去掉了关系四元数的归一化,对照实验二是在在头尾实体之间做Hamilton积,对照实验三为尾实体增加额外的关系旋转。

    从效果上来看,对照组一和对照组二的模型性能变得更差了,对照组三模型性能没有明显改善,而且增加了额外的关系旋转,模型参数效率降低了。

    参数数量比较

    相比于RotatE模型,QuatE模型在WN18RR和FB15K-237上参数效率提升很大

    总结

    本文引入了更具表现力的四元数表征去建模实体和关系;用Hamilton乘积去捕获潜在的相互依赖关系(所有组件之间),实体和关系之间的交互更频繁;对对称、非对称和反转三种常见关系类型进行了建模;相比于RotatE模型,QuatE兼顾了性能和参数效率之间的平衡。

  • 相关阅读:
    JS判断是PC端还是移动端
    js对象转数组
    js获取当前域名、Url、相对路径和参数以及指定参数
    javascript返回上一页的三种写法
    js正则归纳总结
    higtcharts 生成图表个数问题
    js如何处理后台传递过来的Map
    jQuey实现鼠标滑过整行变色
    <display:column>常用属性解释
    <display:table>常用属性解释
  • 原文地址:https://www.cnblogs.com/yanchaoyi/p/15713303.html
Copyright © 2020-2023  润新知