序(摘要)
NLP = linguistics + math + computer science + 认知科学 + 逻辑学 + 心理学
International Tech 评测:
- 机器翻译
- 信息抽取
- 句法分析
中文信息处理:
- 生词识别、歧义消解(共性)
- 韩语自动分词、词性定义规范(个性)
math:
- algebra
- probability
NLP 理论体系尚未真正建立,技术方法仍十分初步!
理论:
- 形式语言与自动机
- 语言模型
- 隐马尔可夫模型
方法:
- 汉语自动分词
- 句法分析
- 词意消歧
应用:
- 统计机器翻译
- 语言翻译
- 信息检索
- 文本分类
- 口语信息处理
基础:
- 概率论
- 信息论
- 形式语言
- 自动机
基于统计的自然语言处理 => 经验主义
基于规则的自然语言处理 => 理性主义
基于统计的 NLP 方法:
- 隐马尔可夫模型
- 最大熵模型
- n元语法
- 概率上下文无关
- 噪声信道理论
- 贝叶斯方法
- 最小编辑距离
- viterbi算法
- (A^{*})搜索
- 双向搜索
- 加权自动机
- SVM
语义是否可计算?计算模型、方法、复杂度?