1. 前言
本文介绍一种无监督的机器翻译的模型。无监督机器翻译最早是《UNSUPERVISED NEURAL MACHINE TRANSLATION》提出。这个模型主要的特点,无需使用平行语料库,使用去噪和回译的步骤构建NMT系统。
2018年Facebook人工智能实验室再次公布了有关无监督神经网络翻译的最新模型《Phrase-Based & Neural Unsupervised Machine Translation》,相当于用 10 万个参考译文训练过的监督模型。“在机器翻译领域,这是一个重大的发现,尽管世界上有超过 6500 种语言,但可利用的翻译训练资源池要么不存在、要么就是太小不足以运用在现有系统中。”
2. Facebook论文原理
Neural Unsupervised Machine Translation介绍了两个模型:
- 基于短语的无监督翻译模型 (PBSMT)
- 基于神经网络的无监督翻译模型 (NUMT) 。
2.1 Unsupervised MT(无监督学习)步骤
在论文中介绍了Unsupervised MT(无监督学习)的主要过程:
- word-by-word Initialization(词到词的参数初始化)
- Language Modeling(语言建模,有去噪效果)
- Iterative Back-translation(迭代回译,自动生成双语对照)
伪代码的形式如下,伪代码中的步骤少了一个word-by-word Initialization的过程:
再看一个论文中介绍3个过程的图:
- 图A是两个单独的语言语料库的数据
- 图B是第一原则:word-by-word Initialization初始化。 这两个单独的语言语料库大致对齐。可以通过单词对齐的形式进行。
- 图C是第二个原则:Language Modeling语言建模。分别学习两个语言模型。语言模型有去噪的作用(弹簧连接的点代表噪声)。
- 图D是第三个原则:Iterative Back-translation反向翻译。从观察到的源句(填充红色圆圈)->预测目标句子(蓝色的叉)。然后从翻译目标句子(蓝色的叉)->重建观察到的源句(填充红色圆圈)。
这4幅图简单的介绍了Unsupervised MT(无监督学习)的3个过程。
2.2 Back-translation回译原理
回译的过程《UNSUPERVISED NEURAL MACHINE TRANSLATION》提出的,结构如下图所示:
首先右边的L1 decoder和L2 decoder分别为两个语言的语料库的Language Modeling(语言模型)。
左边的shared encoder是两个语料库公用的encoder,并且它的embedding是fixed cross-lingual embedding(交叉语言的vocabulary)。
Back-translation的过程:
- L1 sentence->shared encoder(L1)->L2 decoder->predict L2 sentence
- predict L2 sentence->shared encoder(L2)->L1 decoder->L1 sentence
这样就算完成了一个Back-translation的过程,这个过程会去调整fixed cross-lingual embedding的值。
2.3 PBSMT
PBSMT是phrase-based statistical
machine translation(基于短语的机器翻译)。PBSMT用来生成无监督的短语表 (phrase-table) 。
Facebook的研究人员上述原则应用于基于经典计数统计方法的另一个机器翻译模型,叫做(基于短语的机器翻译)。通常而言,这些模型在训练数据(也即翻译好的语言对)较少时表现更好,这也是首次将其应用于无监督的机器翻译。基于短语的机器翻译系统,能够得出正确的单词,但仍然不能形成流畅的句子。但是,这种方法取得的结果也优于以前最先进的无监督模型。
3. 数据结果展示
这个结果在无监督机器翻译领域是有着显著的提升的。最好的方式是PBSMT+NMT的模型结构,这个结果给资源比较少的小语种翻译带来了希望。
4. 总结
Facebook的这篇论文,给无监督机器翻译领域带来了重大发现,使得机器翻译可以不再依赖大规模的平行语料库的标注,也使得在全世界6500种预语言中的小语种翻译带来了前所未有的突破。并且研究人员表示,这种无监督方法不仅适用于机器翻译,也可以扩展到其他领域,让智能体在使用无标记数据的情况下,完成只有极少甚至没有训练数据的任务。这是机器翻译以及无监督学习的一项重大突破。