1.通信模型
2.翻译可行的条件:不同文字在记录信息的能力上是等价的,文字只是信息载体,而非信息本身。
3.信息的冗余:是信息安全的保障。语言的材料(语料)尤其是多语言的对照语料是机器翻译的基础。
4.信息的编码,信源编码:为了减少信源输出符号序列中的剩余度、提高符号的平均信息量,对信源输出的符号序列所施行的变换。具体说,就是针对信源输出符号序列的统计特性来寻找某种方法,把信源输出符号序列变换为最短的码字序列,使后者的各码元所载荷的平均信息量最大,同时又能保证无失真地恢复原来的符号序列。信源编码
5.通信过程中,若信道宽,则信息不需要压缩便可直接传输,若信道窄,则信息需要在发送方尽可能的压缩,到接收方再解压缩。
6.语言实质是一种编码方式,交流即编码和解码。
7.通信系统+隐含的马尔可夫模型,输入和输出都是一维的符号序列,并且保持原有的次数。
8.图灵测试:让人和机器进行交流,如果人没法区分与之交流的是人还是机器,则说这个机器拥有智能。
9.马尔可夫假设:任意一个词Wi 出现的频率只与它前面的词Wi-1有关。P(S)=P(W1)*P(W2|W1)……P(Wn|Wn-1).
10.大数定理需要有足够的观测值:在随机事件的大量重复出现中,往往呈现几乎必然的规律,这个规律就是大数定律。通俗地说,这个定理就是,在试验不变的条件下,重复试验多次,随机事件的频率近似于它的概率。大数定律
11.语料选取:训练数据通常越多越好,噪音高低会对模型效果产生影响,有时需要进行预处理。
12.中文分词:
①查字典:查到该词就标出,复合词找最长匹配,查不到就单字标出,一句话应分成数量最少的词串。
②分词器:
③分词的同时,找到复合词的嵌套结构,根据不同应用,汉语分词的颗粒度应该不同。
④一个分词器同时支持不同层次的词的划分。
⑤分词的不一致性可分为错误和颗粒度两种,错误包括:越界、覆盖,颗粒度即颗粒度不一致。
13.雅各布森通信六要素:发送者(信息源)、信道、接收方、信息、上下文、编码。
14.自然语言处理等价于通信的解码。
15.隐含马尔可夫模型:随机过程中的各个状态St的概率分布,只与它前一个状态St-1有关。
16.信息的信息量与不确定性有直接关系。信息熵:H(X)=-∑P(X)logP(X)。不确定性越大,熵越大。
17.冗余度:直接存储的信息量与压缩存储的信息量的差距。如果一本书的重复内容多,信息量就小,冗余度就大。
18.信息是消除系统不确定性的唯一办法,知道的信息越多,随机事件的不确定性越低。
19.互信息:I(X;Y)=H(X)-H(Y),X、Y完全相关时I=1,X、Y完全无关时I=0。
20.语言模型复杂度:给定上下文的条件下,句子中每个位置平均可以选择的单词数量。复杂度越小,每个位置的单词越确定,模型越好。