这本书是在博客园里乱转时发现的,报着对数学的强烈兴趣就买下了。由于书中的一些数学算法还是有相当难度的,且与我的实际工作相关性不太大,按照Action笔记的思想,只记录一些对我有启发的Action。
第1章 文字和语言 vs 数字和信息
罗塞塔石碑记录了3种语言,难怪我用的一款非常不错的Rosetta软件是学语言用的。
看看《从一到无穷大》这本书。从新浪上找到了,一本古老的书,抽时间看看。
第2章 自然语言处理 — 从规则到统计
图灵测试(Turing Test)----让人和机器进行交流,如果人无法判断自己交流的对象是人还是机器时,就说明这个机器有智能了。
自然语言处理采用句法分析和语义理解竟然走不通,全面地转向统计模型方法了。难道自然语言经过了几千年的演变,已经变得相当复杂,许多语法并不是确定性的而是模糊的?已经不能用计算机来处理?还是句法分析的算法需要一场革命性的变革?
第3章 统计语言模型
条件概率P(w2|w1):已经第一个词w1的前提下,第二个词w2出现的概率。
P(w2|w1) ≈ #(w1, w2) / #(w1)
其中:#(w1, w2)是w1,w2两个词连续出现的次数,#(w1)是w1出现的次数,上述公式是在统计数量非常大的情况下成立。
零概率问题的处理:古德-图灵估计(Good-Turing Estimate)
第4章 谈谈中文分词
用统计模型可以很好地解决中文分词问题。
第5章 隐含马尔可夫模型
这一章与概率论、随机过程联系起来了,想想大学时学的一点点概率论的课程,几乎没有什么印象了。
第6章 信息的度量和作用
以前做数据压缩时也遇到过Shannon给熵做的定义,给定随机变量X,fX为X的概率密度函数,则其熵h(X)为:
一个离散化的公式,对于离散信号X={x1, x2, …, xk}, P(X=xi)表示xi出现的概率,则该信号的信息熵为:
第7章 贾里尼克和现代语言处理
这一章里谈到少年时的教育问题,有两个观点比较赞同。中学阶段花了很长时间比同伴多读的课程,在大学以后可以用非常短的时间读完,因为大学时期的理解力比中学时要强许多倍。学习(和教育)是一个人一辈子的过程,中国的孩子由于中学阶段读了大量的教科书,在大学之后往往厌倦了读书。
第8章 简单之美
这里提到了做好搜索的一个经验,最基本的要求就是每天分析10-20个不好的搜索结果。对于人工智能中的机器博弈来说,每天做10-20个不好的局面评估的分析是不是也是一种提高的办法?
第9章 图论和网络爬虫
这里提到了人工智能中问题求解算法中常用的广度优先搜索BFS和深度优先搜索DFS。
第10章 PageRank — Google的民主表决式网络排名技术
没看懂,以后再说。
第11章 如何确定网页和查询的相关性
TF-IDF
第12章 地图和本地搜索的最基本技术-有限状态机和动态规划
第13章 Google AK-47 的设计者
第14章 余弦定理和新闻的分类
原来余弦定理中计算向量的夹角,还可以用来比较两组特征的相似度,这是第一次翻看本书时让我感兴趣的事。一个中学时学到的知识,实际上在实际中是有许多应用的。如果中学老师知道这些广泛的应用,可能会激发学生的无限兴趣,当你知道空间中的夹角实际上可以映射为现实生活中的其它属性,展开了这种想象后,数学知识才能真的发挥其作用。
cos(A) = (b*b + c*c – a*a) / (2*b*c)
第15章 矩阵运算和文本处理中的两个分类问题
这里提到了矩阵的奇异值分解,在大学时我一直没搞明白矩阵的一大堆运算是干什么用的。
第16章 信息指纹及其应用
这里提到了更好的随机数生成算法----梅森旋转算法Mersenne Twister,正好我的Zobrist HASH算法中需要用到随机数,想试试这更好的随机数能不能减少一些HASH冲突?从网上搜索了一下找到了相关C语言代码,在我的Visual Studio 2010中出现链接错误,还没找到原因。
这里提到的信息指纹与中国象棋局面表示中的Zobrist HASH算法是类似的。
第17章 由电视剧《暗算》所想到的 — 谈谈密码学的数学原理
关于大素数分解的加密算法
第18章 闪光的不一定是金子 — 谈谈搜索引擎的反作弊问题
不关心。
后面的内容实在读不下去了,也不关心了,只有布隆过滤器可能对我还有些用,以后再说吧,把章节的名称放在这里吧。
第19章 谈谈数学模型的重要性
第20章 不要把鸡蛋放到一个篮子里 — 谈谈最大熵模型
第21章 拼音输入法的数学原理
第22章 自然语言处理的教父马库斯和他的优秀弟子们
第23章 布隆过滤器
第24章 马尔可夫链的扩展 — 贝叶斯网络
第25章 条件随机场和句法分析
第26章 维特比和他的维特比算法
第27章 再谈文本自动分类问题 — 期望最大化算法
第28章 逻辑回归和搜索广告
第29章 各个击破算法和Google 云计算的基础