微信公众号:数据运营人
本文为博主原创,如需转载请注明出处。
python自然语言处理
本书目录
第1章 语言处理与python1.1 语言计算:文本和单词python入门NLTK入门搜索文本计数词汇1.2 近观python:将文本当做词链表链表索引列表变量字符串1.3 计算语言:简单的统计频率分布细粒度的选择词词语搭配和双连词计数其他东西1.4 回到python:决策与控制条件对每个元素进行操作嵌套代码块条件循环1.5 自动理解自然语言词义消歧指代消解自动生成语言机器翻译人机对话系统文本的含义NLP的局限性1.6 小结1.7 练习第2章 获得文本预料和词汇资源2.1 获取文本语料库古腾堡语料库网络和聊天文本布朗语料库路透社语料库就职演说语料库标注文本语料库在其他语言的语料库文本语料库结构载入你自己的语料库2.2 条件频率分布条件和事件按文体计数词汇绘制分布图和分布表使用双连词生成随机文本2.3 更多关于python:代码重用使用文本编辑器创建程序函数模块2.4 词典资源词汇列表语料库发音的词典比较词表2.5 WordNet意义与同义词WordNet的层次结构更多的词汇关系语义相似度2.6 小结2.7 练习第3章 加工原料文本3.1 从网络和硬盘访问文本电子书处理的HTML处理搜索引擎的结果读取本地文件从PDF/MSWord及其他二进制格式中提取文本捕获用户输入NLP的流程3.2 字符串:对底层的文本处理字符串的基本操作输入字符串访问单个字符访问子字符串更多的字符串操作链表与字符串的差异3.3 使用Unicode进行文字处理什么是Unicode?从文件中提取已编码文本在python中使用本地编码3.4 使用正则表达式检测词组搭配使用基本元字符范围与闭包3.5 正则表达式的有益应用提取字符快在字符块上做更多事情查找词干搜索已分词文本3.6 规范化文本词干提取器词性归并3.7 用正则表达式为文本分词分词的简单方法NLTK的正则表达式分词器分词的进一步问题3.8 分割断句分词3.9 格式化:从链表到字符串从链表到字符串字符串与格式化排列将结果写入文件文本换行3.10 小结3.11 练习第4章 编写结构化程序4.1 回到基础赋值等式条件语句4.2 序列序列类型上的操作合并不同类型的序列产生器表达式4.3 风格的问题python代码风格过程风格与声明风格计数器的一些合理用途4.4 函数:结构化编程的基础函数的输入和输出参数传递变量的作用域参数类型检查功能分解文档说明函数4.5 更多关于函数作为参数的函数累计函数高阶函数参数的命名4.6 程序开发python模块结构多模块程序误差源头调试技术防御性编程4.7 算法设计递归权衡空间与时间动态规划4.8 python库的样例matplotlib绘图工具NetworkXCSVnumpy其他python库4.9 小结4.10 练习第5章 分类和标注词汇5.1 使用词性标注器5.2 标注语料库表示已标注的标识符读取已标注的语料库简化的词性标记集名词动词形容词和副词为简化的标记探索已标注的语料库5.3 使用python字典映射词及其属性索引链表VS字典python字典定义字典默认字典递增的更新字典复杂的键和值颠倒字典5.4 自动标注默认标注器正则表达式标注器查询标注器评估5.5 N-gram标注一元标注(Unigram Tagging)分离训练和测试数据一般的N-gram的标注组合标注器标注生词存储标注器性能限制跨句子边界标注5.6 基于转换的标注5.7 如何确定一个词的分类形态学线索句法线索语义线索新词词性标记集中的形态学5.8 小结5.9 练习第6章 学习分类文本6.1 有监督分类性别鉴定选择正确的特征文档分类探索上下文语境序列分类其他序列分类方法6.2 有监督分类的更多例子句子分割识别对话行为类型识别文字蕴含扩展到大型数据集6.3 评估测试集准确度精确度和召回率混淆矩阵交叉验证6.4 决策树熵和信息增益6.5 朴素贝叶斯分类器潜在概率模型零计数和平滑非二元特征独立的朴素双重技术的原因6.6 最大熵分类器最大熵模型熵的最大化生成式分类器对比条件式分类器6.7 为语言模式建模模型告诉我们什么?6.8 小结6.9 练习第7章 从文本提取信息7.1 信息提取信息提取结构7.2 分块名词短语分块标记模式用正则表达式分块探索文本语料库加缝隙块的表示:标记与树7.3 开发和评估分块器读取IOB格式与CoNLL2000分块语料库简单评估和基准训练基于分类器的分块器7.4 语言结构中的递归用级联分块器构建嵌套结构树树遍历路透社语料库7.5 命名实体识别7.6 关系抽取7.7 小结7.8 练习第8章 分析句子结构8.1 一些语法困境语言数据和无限可能性普遍存在的歧义8.2 文法有什么用?超越n-grams8.3 上下文无关文法一种简单的文法写你自己的文法句法结构中的递归8.4 上下文无关文法分析递归下降分析移进-规约分析做角落分析器符合语句规则的字串表8.5 依存关系和依存文法配价与词汇扩大规模8.6 文法开发树库与文法有害的歧义加权文法8.7 小结8.8 练习第9章 建立基本特征的文法9.1 文法特征句法协议使用属性和约束术语9.2 处理特征结构包含和统一9.3 扩转基本特征的文法子类别核心词回顾助动词与倒装无限制依赖成分德语中的格和性别9.4 小结9.5 练习第10章 分析句子的意思10.1 自然语言理解查询数据库自然语言、语义和逻辑10.2 命名逻辑10.3 一阶逻辑句法一阶定理证明一阶逻辑语言总结真值模型独立变量和赋值量化量词范围歧义模型的建立10.4 英语句子的语义基于特征的文法中的合成语义学lambda验算量化的NP及物动词再述量词歧义10.5 段落语义层段落表示理论段落处理10.6 小结10.7 练习第11章 语言数据管理11.1 语料库结构:一个案例研究TIMIT的结构主要设计特点基本数据类型11.2 语料库生命周期语料库创建的三种方案质量控制维护与演变11.3 数据采集从网上获取数据从字处理器文件获取数据从电子表格和数据库中获取数据转换数据格式决定要包含标注层标准和工具处理濒危语言时特别注意事项11.4 使用XML语言结构中使用XMLXML的作用ElementTree接口使用ElementTree访问Toolbox数据格式化条目11.5 使用Toolbox数据为每个条目添加一个字段验证Toolbox词汇11.6 使用OLAC元数据描述语言资源元数据是什么?OLAC:开放语言档案社区11.7 小结11.8 练习