• ACL2019论文阅读


    Integrating Weakly Supervised Word Sense Disambiguation into Neural Machine Translation

    一篇关于机器翻译的论文,目的是是将词义信息加到机器翻译模型中,以此缓解机器翻译模型对于多义词翻译不准确的问题。

    引入的方法很简单,输入机器翻译模型的word emebdding将由常规的word embedding和词义embedding拼接而成,让模型对单词的词义敏感。问题有两个:

    1 每个单词不同词义embedding从哪里来

    2 对于某一个token,如何确定使用哪个词义embedding

    对于第一个问题,该论文通过wordnet获取单词w的词义描述以及使用该词的example,将词义描述或者example里的单词进行embedding,再取平均就作为每个词义的初始embedding。对于词义描述和example处理方式略有不同。词义描述使用其中所有单词的embedding的平均,而example则是选择单词w左右窗口内的词的embedding做平均,原因是example可能是很长的句子,把这个句子所有的词考虑进来会带来很多噪音。有的词义的初始centroid embedding,接下来就是对词义进行聚类进而达到词义消歧的目的。聚类的方法论文中采用的三种,例如k-means等等。首先会在源语言句子中抽取单词w的片段,例如预设一个窗口,这个窗口内的单词(除去停用词)的emebdding的平均作为w的候选词义embedding。然后根据初始centroid embeddings对所有候选词义embedding做聚类。聚类的k可有wordnet中对于单词w保存的词义个数来确定。

    对于第二个问题,就是简单的和对应的多个词义embedding做相似度计算,选择最相似的。也可以通过相似性算的每个词义的权重,再根据这个权重对所有词义embedding做带权平均。

    Neural News Recommendation with Long- and Short-term User Representations
    这是一篇做个性化新闻推荐的论文,主要贡献在于同时考虑用户的短期和长期的喜好,结合两个方面进行新闻推荐。例如,一个用户是梅西的球迷,长期的兴趣在于足球。但短期看,用户也可能会对西班牙或者阿根廷的新闻感兴趣,毕竟梅西是阿根廷人在西班牙踢足球。于是对于一个用户,该论文构建了两个representations,long-term user representation (LTUR) 和 short-term user representation (STUR).

    所谓LTUR就是对每个用户进行embedding,看作模型的weights,随机初始化并随着训练进行优化。STUR是通过用户最近一段时间阅读的新闻来构建的。每个新闻由news encoder来生成一个表示,然后用GRU对用户近期阅读的新闻序列建模,最后一个时间步的输出即是STUR。那么用户的这两个表示如何联合起作用的呢,论文的方法很简单,将LTUR作为GRU的初始状态,然后用这个GRU生成STUR。

    上面说的news encoder是一个CNN模型,选择窗口对新闻标题进行CNN,再利用attention生成对应的表示。除了标题,还要将新闻的topic和subtopic引入进来,方法很简单,就是将topic和subtopic进行embedding,最后和基于CNN生成的表示进行拼接构成了最终的news representation。

    inference的时候,将用户的LSTUR和news representation进行点积作为排序的score。

    训练的时候会引入k个用户从来没点击过,但来自相同的impression的新闻,构成一个k+1分类问题,使用负对数似然损失进行优化。因为实际情况下,会有新的用户过来,即没有条件构建长期的兴趣,于是训练的时候会随机mask掉LTUR来适应这种特殊情况。

  • 相关阅读:
    [20171121]rman backup as copy 2.txt
    [20171120]关于INBOUND_CONNECT_TIMEOUT设置.txt
    [20171120]理解v$session的state字段(11G).txt
    [20171120]11G关闭直接路径读.txt
    [20171120]bash使用here documents的一个小细节.txt
    [20171120]关于find 软连接问题.txt
    [20171120]11g select for update skip locked.txt
    [20171115]ZEROCONF ROUTE.txt
    [20171113]修改表结构删除列相关问题4.txt
    [20171110]sql语句相同sql_id可以不同吗.txt
  • 原文地址:https://www.cnblogs.com/zhuangliu/p/12681645.html
Copyright © 2020-2023  润新知