MIT自然语言处理第一讲:简介和概述(第三部分)
自然语言处理:背景和概述
Natural Language Processing:Background and Overview
作者:Regina Barzilay(MIT,EECS Department,September 8, 2004)
译者:我爱自然语言处理(www.52nlp.cn ,2009年1月5日)
四、 这门课程将包含哪些内容(What will this course be about)?
1、 对不同层次(句法、语义、篇章)的语言知识建立合适的计算模型和有效的表达方式(Computationally suitable and expressive representation of linguistic knowledge at various levels: syntax, semantics, discourse)
2、 从文本样本中学习有关语言特性的算法:平滑估计,对数线性模型,概率上下文无关文法,EM算法,联合训练,…..(Algorithms for learning language properties from text samples: smoothed estimation, log-linear models, probabilistic context free grammars, the EM algorithm, co-training, …)
3、 以文本处理技术为基础的应用:机器翻译,文本摘要,信息检索(Technologies underlying text processing applications: machine translation, text summarization, information retrieval)
五、 教学大纲(Syllabus)
简介和概述(Introduction and Overview)——1课时(1 class)
简单的语言统计学(Simple Language Statistics)——1课时(1 class)
语言模型(Language Models)——1课时(1 class)
标注(Tagging)——1课时(1 class)
句法分析(Syntactic Parsing)——1课时(1 class)
无监督语法归纳(Unsupervised Grammar Induction )——1课时(1 class)
词汇语义学介绍(Introduction to Lexical Semantics)——1课时(1 class)
词义消歧(Word Sense Disambiguation)——1课时(1 class)
语义分析(Semantic Parsing)——1课时(1 class)
语篇处理介绍(Discourse Processing)——1课时(1 class)
指代消解(Anaphora Resolution)——1课时(1 class)
主题划分(Topical Segmentation)——1课时(1 class)
语篇分析(Discourse Parsing)——1课时(1 class)
对话处理(Dialogue Processing)——1课时(1 class)
自然语言生成(Natural Language Generation)——1课时(1 class)
文本摘要(Text Summarization)——1课时(1 class)
信息检索(Information Retrieval)——1课时 (1 class)
机器翻译(Machine Translation)——3课时 (3 classes)
六、 预备知识(Prerequisites)
1、 对语言感兴趣并了解英语的基本知识(Interest in language and basic knowledge of English)
2、 懂一些基本的线性代数,概率统计知识(Some basic linear algebra, probability and statistics)
3、 有基本的编程基础(Some programming skills)
七、 评价(Assessment)
1、 期中考试(Midterm)——35%
2、 两个家庭作业(Two homeworks)——每个15%
3、 一个提交工程(Project)—— 35%
八、 总结(Summary)
1、 统计方法 vs “手工制作”系统(Statistical approaches vs. hand-crafted systems)
a) 许多规则都需要编码成人类知识(Many rules are required to encode human knowledge)
b) 很难对规则间的交互建模(Hard to model rule interaction)
c) 常见的限制比较弹性(Frequently constraints are soft)
2、 关于NLP的机器学习(Machine Learning for NLP)
a) 我们需要对语言信息更有效的计算表示能力(We need computationally effective representation of linguistic information)
b) 我们需要对处理语言数据更合适的学习算法(We need new learning algorithms suitable for processing linguistic data)
第一讲结束!
第二讲:单词计数
附:课程及课件pdf下载MIT英文网页地址:
http://people.csail.mit.edu/regina/6881/
注:本文遵照麻省理工学院开放式课程创作共享规范翻译发布,转载请注明出处“我爱自然语言处理”:www.52nlp.cn