• 读书笔记_数学之美


    1.通信模型

    2.翻译可行的条件:不同文字在记录信息的能力上是等价的,文字只是信息载体,而非信息本身。

    3.信息的冗余:是信息安全的保障。语言的材料(语料)尤其是多语言的对照语料是机器翻译的基础。

    4.信息的编码,信源编码:为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。信源编码

    5.通信过程中,若信道宽,则信息不需要压缩便可直接传输,若信道窄,则信息需要在发送方尽可能的压缩,到接收方再解压缩。

    6.语言实质是一种编码方式,交流即编码和解码。

    7.通信系统+隐含的马尔可夫模型,输入和输出都是一维的符号序列,并且保持原有的次数。

    8.图灵测试:让人和机器进行交流,如果人没法区分与之交流的是人还是机器,则说这个机器拥有智能。

    9.马尔可夫假设:任意一个词Wi 出现的频率只与它前面的词Wi-1有关。P(S)=P(W1)*P(W2|W1)……P(Wn|Wn-1).

    10.大数定理需要有足够的观测值:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。大数定律

    11.语料选取:训练数据通常越多越好,噪音高低会对模型效果产生影响,有时需要进行预处理。

    12.中文分词:

    ①查字典:查到该词就标出,复合词找最长匹配,查不到就单字标出,一句话应分成数量最少的词串。

    ②分词器:

    ③分词的同时,找到复合词的嵌套结构,根据不同应用,汉语分词的颗粒度应该不同。

    ④一个分词器同时支持不同层次的词的划分。

    ⑤分词的不一致性可分为错误和颗粒度两种,错误包括:越界、覆盖,颗粒度即颗粒度不一致。

    13.雅各布森通信六要素:发送者(信息源)、信道、接收方、信息、上下文、编码。

    14.自然语言处理等价于通信的解码。

    15.隐含马尔可夫模型:随机过程中的各个状态St的概率分布,只与它前一个状态St-1有关。

    16.信息的信息量与不确定性有直接关系。信息熵:H(X)=-∑P(X)logP(X)。不确定性越大,熵越大。

    17.冗余度:直接存储的信息量与压缩存储的信息量的差距。如果一本书的重复内容多,信息量就小,冗余度就大。

    18.信息是消除系统不确定性的唯一办法,知道的信息越多,随机事件的不确定性越低。

    19.互信息:I(X;Y)=H(X)-H(Y),X、Y完全相关时I=1,X、Y完全无关时I=0。

    20.语言模型复杂度:给定上下文的条件下,句子中每个位置平均可以选择的单词数量。复杂度越小,每个位置的单词越确定,模型越好。

     

     

  • 相关阅读:
    String类型和包装类型作为参数传递时,是属于值传递还是引用传递呢?
    RPC 框架
    大型分布式电商系统架构演进史?
    框架演变
    SSM和springboot对比
    什么是微服务,SpringBoot和SpringCloud的关系和区别
    Springboot,SSM及SSH的概念、优点、区别及缺点
    Spring Cloud 和dubbo
    LeetCode 048 Rotate Image
    LeetCode 047 Permutations II
  • 原文地址:https://www.cnblogs.com/TestFocus/p/3501020.html
Copyright © 2020-2023  润新知