读书笔记_数学之美

读书笔记_数学之美

1.通信模型

2.翻译可行的条件：不同文字在记录信息的能力上是等价的，文字只是信息载体，而非信息本身。

3.信息的冗余：是信息安全的保障。语言的材料（语料）尤其是多语言的对照语料是机器翻译的基础。

4.信息的编码，信源编码：为了减少信源输出符号序列中的剩余度、提高符号的平均信息量，对信源输出的符号序列所施行的变换。具体说，就是针对信源输出符号序列的统计特性来寻找某种方法，把信源输出符号序列变换为最短的码字序列，使后者的各码元所载荷的平均信息量最大，同时又能保证无失真地恢复原来的符号序列。信源编码

5.通信过程中，若信道宽，则信息不需要压缩便可直接传输，若信道窄，则信息需要在发送方尽可能的压缩，到接收方再解压缩。

6.语言实质是一种编码方式，交流即编码和解码。

7.通信系统+隐含的马尔可夫模型，输入和输出都是一维的符号序列，并且保持原有的次数。

8.图灵测试：让人和机器进行交流，如果人没法区分与之交流的是人还是机器，则说这个机器拥有智能。

9.马尔可夫假设：任意一个词W_i出现的频率只与它前面的词W_i-1有关。P(S)=P(W₁)*P(W₂|W₁)……P(W_n|W_n-1).

10.大数定理需要有足够的观测值：在随机事件的大量重复出现中，往往呈现几乎必然的规律，这个规律就是大数定律。通俗地说，这个定理就是，在试验不变的条件下，重复试验多次，随机事件的频率近似于它的概率。大数定律

11.语料选取：训练数据通常越多越好，噪音高低会对模型效果产生影响，有时需要进行预处理。

12.中文分词：

①查字典：查到该词就标出，复合词找最长匹配，查不到就单字标出，一句话应分成数量最少的词串。

②分词器：

③分词的同时，找到复合词的嵌套结构，根据不同应用，汉语分词的颗粒度应该不同。

④一个分词器同时支持不同层次的词的划分。

⑤分词的不一致性可分为错误和颗粒度两种，错误包括：越界、覆盖，颗粒度即颗粒度不一致。

13.雅各布森通信六要素：发送者（信息源）、信道、接收方、信息、上下文、编码。

14.自然语言处理等价于通信的解码。

15.隐含马尔可夫模型：随机过程中的各个状态S_t的概率分布，只与它前一个状态S_t-1有关。

16.信息的信息量与不确定性有直接关系。信息熵：H(X)=-∑P(X)logP(X)。不确定性越大，熵越大。

17.冗余度：直接存储的信息量与压缩存储的信息量的差距。如果一本书的重复内容多，信息量就小，冗余度就大。

18.信息是消除系统不确定性的唯一办法，知道的信息越多，随机事件的不确定性越低。

19.互信息：I(X;Y)=H(X)-H(Y)，X、Y完全相关时I=1，X、Y完全无关时I=0。

20.语言模型复杂度：给定上下文的条件下，句子中每个位置平均可以选择的单词数量。复杂度越小，每个位置的单词越确定，模型越好。

—————— 专注软件测试，转载请注明出处，谢谢。
相关阅读:
String类型和包装类型作为参数传递时，是属于值传递还是引用传递呢？
RPC 框架
 大型分布式电商系统架构演进史？
框架演变
 SSM和springboot对比
 什么是微服务，SpringBoot和SpringCloud的关系和区别
 Springboot,SSM及SSH的概念、优点、区别及缺点
 Spring Cloud 和dubbo
LeetCode 048 Rotate Image
LeetCode 047 Permutations II
原文地址：https://www.cnblogs.com/TestFocus/p/3501020.html