• 一周论文阅读20200419


    • Byte Pair Encoding is Suboptimal for Language Model Pretraining
      主要比较bpe算法和unigram LM tonkenize算法的优劣,主要结论是LM tonkenize算法更优

    • Author2Vec: A Framework for Generating User Embedding
      用作者发布的文章信息提取作者向量,bert提文章信息,然后contact最后几层的cls,用gru将这些文章向量编码,之后通过k-sparseEncoding编码成向量,最后用作者的分类任务进行pretrain。不太理解为什么用gru进行编码,作者文章信息的编码的顺序这么定?

    • Cross-lingual Language Model Pretraining
      有同事在做这方面工作所以稍微浏览下,主要做多语言bert的bert语言模型,主要工作包括用多语言的语料训练一个单独的bpe词表。提出三个训练目标函数:CLM 知道前面的词预测下一个词 ;MLM 预测mask后的词是什么 ;TLM 采用平行语料构+language embding建的MLM object 。效果是在一些评测集上取得了较好的指标,并且能够提升一些低资源语言的性能。 这种方法如果比单语言的bert好或许能说明各个语言之间也有一些共性。

    • unsupervised Domain Clusters in Pretrained Language Models
      任务是:domain data selection 即给少量的领域语料,从大量语料中提取该领域的语料。其实就是句子的聚类,作者用bert 、gpt2、xlnet、等模型的最后一层的average pooling 作为句子向量,在某个带标签的数据集上用pca和聚类算法进行聚类,再用纯度作为指标比较各个方法,实验效果是bert优于w2v优于lda。在提取领域语料时,先将句子编码成向量,可以cosine聚类直接提取,也可以用finetune的二分类任务来做,其中领域语料为正例,大语料中根据cosine距离筛选出一部分采样作为负例

  • 相关阅读:
    java 复习001
    Some_sort_algorithms
    Install_pygments
    Install_ruby
    Ubuntu_wifi&pppoe
    Some_problem_with_octopress
    复习C语言
    VSim [a Racing-simulator by Vell001]
    Hello, Github Blog
    我的新计划 《2Dof Racing Simulator》2014/3/9 20:30:00
  • 原文地址:https://www.cnblogs.com/kangheng/p/12717878.html
Copyright © 2020-2023  润新知