• 02-NLP-04基于统计的翻译系统-07-Niutrans


    Niutrans:基于短语的统计翻译系统

    1. Data preparation数据准备阶段

    a) Training data 训练数据 LM-training-set和 LM-training-set

    b) Tuning data 调参参数(相当于超参数:来调整权重参数)

    c) Test data 测试效果的(类似交叉验证)

    d) Evaluation data 评估

    注意:

    1)、LM:语言模型language model无需对齐

    2)、在TM训练数据模型中,需要对齐

    2. Training Translation Model

    输入的数据有该模型的数据有:

    Chinese.txt

    english.txt

    Alignment.txt  对齐文本:根据一致性原则来生成

    输出得到的数据为:

    reordering.table:排序表,从一种语言到另外一种语言之间偏移了多少的概率

    phrase.translation.table:短语到短语之间转换的概率表

    处理过程:利用GIZA,先扫描输入数据中所有的单词,然后用滑动窗口扫描得出短语之间的对照关系,并利用短语一致性的原则来筛选得出最后的结果。

    3、Training n-gram language model语言模型

    最终建立成一个字典树,可以自行加载你想要的。

    4、Generating Configuration File

    由于底层是用C++写的,所以运算速率还可以。

    实际上生成一个配置文件,从而便于搭建出一个服务sever。

    5、Table Filtering(Optional)

    如果在五千万平行语料中生成了一个模型,但这个模型在线上加载时将非常消耗内存。

    如果是对一些子领域进行处理的时候,例如只想要实现对医学领域文本的处理,那就可以只选取加载和医学领域相关的短语,其余的就不加载了。

    因此就是做一下过滤,只抽取出你想要的短语。

    6、Weight Tuning

    可以理解为和机器学习中超参数的选择类似。

    7、Decoding Test Sentences

    解码只找最优的一条路径:1best.out

    如果想要解码得到两条最优路径:2best.out

    8、Recasing(Suppose that  the target language is English)

    将英文的首字母全部大写,即还原成英语句子的样子。

    9、Detokenizer

    修改完善一些标点符号

    10、Evaluation评估

    转化格式,用一个xml格式的进行评估,比对标准的和你自己生成的xml文件。得到评估结果。

  • 相关阅读:
    Kubernetes 查看node
    Zookeeper ZAB 协议分析[转]
    zookeeper 快速入门
    Kubernetes-dns 域名解析问题
    Kubernetes-dns 服务搭建
    Kubernetes dashboard 配置
    kubernetes 入门学习
    使用jenkins SonarQube gitlab 构建自动化发布系统
    VMware Harbor 学习
    docker快速入门
  • 原文地址:https://www.cnblogs.com/Josie-chen/p/9139284.html
Copyright © 2020-2023  润新知