• 自然语言处理综论(第二版)


    作者:Daniel Jurafsky(D. 朱夫斯凯), James H. Martin(J. H. 马丁

    出版社:电子工业出版社

    出版时间:2018年03月 


    第1章导论
    1.1语音与语言处理中的知识
    1.2歧义
    1.3模型和算法
    1.4语言、思维和理解
    1.5学科现状与近期发展
    1.6语音和语言处理简史
    1.6.1基础研究:20世纪40年代和20世纪50年代
    1.6.2两个阵营:1957年至1970年
    1.6.3四个范型:1970年至1983年
    1.6.4经验主义和有限状态模型的复苏:1983年至1993年
    1.6.5不同领域的合流:1994年至1999年
    1.6.6机器学习的兴起:2000年至2008年
    1.6.7关于多重发现
    1.6.8心理学的简要注记
    1.7小结
    1.8文献和历史说明



    第一部分 词汇的计算机处理



    第2章正则表达式与自动机
    2.1正则表达式
    2.1.1基本正则表达式模式
    2.1.2析取、组合与优先关系
    2.1.3一个简单的例子
    2.1.4一个比较复杂的例子
    2.1.5高级算符
    2.1.6正则表达式中的替换、存储器与ELIZA
    2.2有限状态自动机
    2.2.1用FSA来识别羊的语言
    2.2.2形式语言
    2.2.3其他例子
    2.2.4非确定FSA
    2.2.5使用NFSA接收符号串
    2.2.6识别就是搜索
    2.2.7确定自动机与非确定自动机的关系
    2.3正则语言与 FSA
    2.4小结
    2.5文献和历史说明



    第3章 词与转录机
    3.1英语形态学概观
    3.1.1屈折形态学
    3.1.2派生形态学
    3.1.3附着
    3.1.4非毗连形态学
    3.1.5一致关系
    3.2有限状态形态剖析
    3.3有限状态词表的建造
    3.4有限状态转录机
    3.4.1定序转录机和确定性
    3.5用于形态剖析的FST
    3.6转录机和正词法规则
    3.7把FST词表与规则相结合
    3.8与词表无关的FST:Porter词干处理器
    3.9单词和句子的词例还原
    3.9.1中文的自动切词
    3.10拼写错误的检查与更正
    3.11最小编辑距离
    3.12人是怎样进行形态处理的
    3.13小结
    3.14文献和历史说明



    第4章 N元语法
    4.1语料库中单词数目的计算
    4.2简单的(非平滑的)N元语法
    4.3训练集和测试集
    4.3.1N元语法及其对训练语料库的敏感性
    4.3.2未知词:开放词汇与封闭词汇
    4.4N元语法的评测:困惑度
    4.5平滑
    4.5.1Laplace平滑
    4.5.2Good Turing打折法
    4.5.3Good Turing估计的一些高级专题
    4.6插值法
    4.7回退法
    4.7.1高级专题:计算Katz回退的α和P*
    4.8实际问题:工具包和数据格式
    4.9语言模型建模中的高级专题
    4.9.1高级的平滑方法:Kneser Ney平滑法
    4.9.2基于类别的N元语法
    4.9.3语言模型的自适应和网络(Web)应用
    4.9.4长距离信息的使用:简要的综述
    4.10信息论背景
    4.10.1用于比较模型的交叉熵
    4.11高级问题:英语的熵和熵率均衡性
    4.12小结
    4.13文献和历史说明



    第5章词类标注
    5.1(大多数)英语词的分类
    5.2英语的标记集
    5.3词类标注
    5.4基于规则的词类标注
    5.5基于隐马尔可夫模型的词类标注
    5.5.1计算最可能的标记序列: 一个实例
    5.5.2隐马尔可夫标注算法的形式化
    5.5.3使用Viterbi算法来进行HMM标注
    5.5.4把HMM扩充到三元语法
    5.6基于转换的标注
    5.6.1怎样应用TBL规则
    5.6.2怎样学习TBL规则
    5.7评测和错误分析
    5.7.1错误分析
    5.8词类标注中的高级专题
    5.8.1实际问题:标记的不确定性与词例还原
    5.8.2未知词
    5.8.3其他语言中的词类标注
    5.8.4标注算法的结合
    5.9高级专题:拼写中的噪声信道模型
    5.9.1上下文错拼更正
    5.10小结
    5.11文献和历史说明



    第6章隐马尔可夫模型与最大熵模型
    6.1马尔可夫链
    6.2隐马尔可夫模型
    6.3似然度的计算:向前算法
    6.4解码:Viterbi算法
    6.5HMM的训练:向前向后算法
    6.6最大熵模型:背景
    6.6.1线性回归
    6.6.2逻辑回归
    6.6.3逻辑回归:分类
    6.6.4高级专题:逻辑回归的训练
    6.7最大熵模型
    6.7.1为什么称为最大熵
    6.8最大熵马尔可夫模型
    6.8.1MEMM的解码和训练
    6.9小结
    6.10文献和历史说明



    第二部分 语音的计算机处理



    第7章语音学
    7.1言语语音与语音标音法
    7.2发音语音学
    7.2.1发音器官
    7.2.2辅音:发音部位
    7.2.3辅音:发音方法
    7.2.4元音
    7.2.5音节
    7.3音位范畴与发音变异
    7.3.1语音特征
    7.3.2语音变异的预测
    7.3.3影响语音变异的因素
    7.4声学语音学和信号
    7.4.1波
    7.4.2语音的声波
    7.4.3频率与振幅:音高和响度
    7.4.4从波形来解释音子
    7.4.5声谱和频域
    7.4.6声源滤波器模型
    7.5语音资源
    7.6高级问题:发音音系学与姿态音系学
    7.7小结
    7.8文献和历史说明



    第8章 语音合成
    8.1文本归一化
    8.1.1句子的词例还原
    8.1.2非标准词
    8.1.3同形异义词的排歧
    8.2语音分析
    8.2.1查词典
    8.2.2名称
    8.2.3字位-音位转换
    8.3韵律分析
    8.3.1韵律的结构
    8.3.2韵律的突显度
    8.3.3音调
    8.3.4更精巧的模型:ToBI
    8.3.5从韵律标记计算音延
    8.3.6从韵律标记计算F0
    8.3.7文本分析的最后结果:内部表示
    8.4双音子波形合成
    8.4.1建立双音子数据库的步骤
    8.4.2双音子毗连和用于韵律的TD-PSOLA
    8.5单元选择(波形)合成
    8.6评测
    8.7文献和历史说明



    第9章语音自动识别
    9.1语音识别的总体结构
    9.2隐马尔可夫模型应用于语音识别
    9.3特征抽取:MFCC矢量
    9.3.1预加重
    9.3.2加窗
    9.3.3离散傅里叶变换
    9.3.4Mel滤波器组和对数
    9.3.5倒谱:逆向傅里叶变换
    9.3.6Delta特征与能量
    9.3.7总结:MFCC
    9.4 声学似然度的计算
    9.4.1矢量量化
    9.4.2高斯概率密度函数
    9.4.3概率、对数概率和距离函数
    9.5词典和语言模型
    9.6搜索与解码
    9.7嵌入式训练
    9.8评测:词错误率
    9.9小结
    9.10文献和历史说明



    第10章语音识别:高级专题
    10.1多遍解码:N最佳表和格
    10.2A*解码算法(“栈”解码算法)
    10.3依赖于上下文的声学模型:三音子
    10.4分辨训练
    10.4.1最大互信息估计
    10.4.2基于后验分类器的声学模型
    10.5语音变异的建模
    10.5.1环境语音变异和噪声
    10.5.2说话人变异和说话人适应
    10.5.3发音建模:由于语类的差别而产生的变异
    10.6元数据:边界、标点符号和不流利现象
    10.7人的语音识别
    10.8小结
    10.9文献和历史说明



    第11章计算音系学
    11.1有限状态音系学
    11.2高级有限状态音系学
    11.2.1元音和谐
    11.2.2模板式形态学
    11.3计算优选理论
    11.3.1优选理论中的有限状态转录机模型
    11.3.2优选理论的随机模型
    11.4音节切分
    11.5音位规则和形态规则的机器学习
    11.5.1音位规则的机器学习
    11.5.2形态规则的机器学习
    11.5.3优选理论中的机器学习
    11.6小结
    11.7文献和历史说明



    第三部分句法的计算机处理



    第12章英语的形式语法
    12.1组成性
    12.2上下文无关语法
    12.2.1上下文无关语法的形式定义
    12.3英语的一些语法规则
    12.3.1句子一级的结构
    12.3.2子句与句子
    12.3.3名词短语
    12.3.4一致关系
    12.3.5动词短语和次范畴化
    12.3.6助动词
    12.3.7并列关系
    12.4树库
    12.4.1树库的例子:宾州树库课题
    12.4.2作为语法的树库
    12.4.3树库搜索
    12.4.4中心词与中心词的发现
    12.5语法等价与范式
    12.6有限状态语法和上下文无关语法
    12.7依存语法
    12.7.1依存和中心词之间的关系
    12.7.2范畴语法
    12.8口语的句法
    12.8.1不流畅现象与口语修正
    12.8.2口语树库
    12.9语法和人的语言处理
    12.10小结
    12.11文献和历史说明



    第13章句法剖析
    13.1剖析就是搜索
    13.1.1自顶向下剖析
    13.1.2自底向上剖析
    13.1.3自顶向下剖析与自底向上剖析比较
    13.2歧义
    13.3面对歧义的搜索
    13.4动态规划剖析方法
    13.4.1CKY剖析
    13.4.2Earley算法
    13.4.3线图剖析
    13.5局部剖析
    13.5.1基于规则的有限状态组块分析
    13.5.2基于机器学习的组块分析方法
    13.5.3组块分析系统的评测
    13.6小结
    13.7文献和历史说明



    第14章统计剖析
    14.1概率上下文无关语法
    14.1.1 PCFG用于排歧
    14.1.2PCFG用于语言建模
    14.2PCFG的概率CKY剖析
    14.3PCFG规则概率的学习途径
    14.4PCFG的问题
    14.4.1独立性假设忽略了规则之间的结构依存关系
    14.4.2缺乏对词汇依存关系的敏感性
    14.5使用分离非终极符号的办法来改进PCFG
    14.6概率词汇化的CFG
    14.6.1Collins剖析器
    14.6.2高级问题:Collins剖析器更多的细节
    14.7剖析器的评测
    14.8高级问题:分辨再排序
    14.9高级问题:基于剖析器的语言模型
    14.10人的剖析
    14.11小结
    14.12文献和历史说明



    第15章特征与合一
    15.1特征结构
    15.2特征结构的合一
    15.3语法中的特征结构
    15.3.1一致关系
    15.3.2中心语特征
    15.3.3次范畴化
    15.3.4长距离依存关系
    15.4合一的实现
    15.4.1合一的数据结构
    15.4.2合一算法
    15.5带有合一约束的剖析
    15.5.1把合一结合到Earley剖析器中
    15.5.2基于合一的剖析
    15.6类型与继承
    15.6.1高级问题:类型的扩充
    15.6.2合一的其他扩充
    15.7小结
    15.8文献和历史说明



    第16章语言和复杂性
    16.1Chomsky 层级
    16.2怎么判断一种语言不是正则的
    16.2.1抽吸引理
    16.2.2证明各种自然语言不是正则语言
    16.3自然语言是上下文无关的吗
    16.4计算复杂性和人的语言处理
    16.5小结
    16.6文献和历史说明



    第四部分语义和语用的计算机处理



    第17章意义的表示
    17.1意义表示的计算要求
    17.1.1可验证性
    17.1.2无歧义性
    17.1.3规范形式
    17.1.4推理与变量
    17.1.5表达能力
    17.2模型论语义学
    17.3一阶逻辑
    17.3.1一阶逻辑基础
    17.3.2变量和量词
    17.3.3λ表示法
    17.3.4一阶逻辑的语义
    17.3.5推理
    17.4事件与状态的表示
    17.4.1时间表示
    17.4.2体
    17.5描述逻辑

  • 相关阅读:
    综合练习-词频统计
    组合数据类型综合练习
    Python综合练习
    PostOrder_Traversal 二叉树的非递归后序遍历
    PAT甲级-1152-Google Recruitment(20 分)
    PAT甲级-1007-Maximum Subsequence Sum (25 分)
    macOS MOjave运行pygame不显示图像-解决方案
    PAT甲级-1004-Counting Leaves(30 分)
    Python进阶-Numpy科学计算库(简单入门)
    回文日期
  • 原文地址:https://www.cnblogs.com/hbuwyg/p/13140343.html
Copyright © 2020-2023  润新知