自动作文评分与自然语言处理

　　前些天一个学弟发邮件咨询有关自动作文评分的问题，在了解了这是他们导师布置的一个任务后，出于做统计机器翻译的惯性思维，我马上想到的是利用语言模型对作文进行流利度方面的打分，但也意识到这是一个粗糙的甚至是错误的评分系统，因为它连最基本的作文长度都没有考虑。
　　于是找了一些这方面的中英文材料看了一下，才发现自动作文评分系统在国外研究的很多很热甚至都已应用到真实的考试任务中去，而国内的研究寥寥，至少说明这个学弟选了一个很有应用前景和挑战性很强的方向。
　　后来，我又与这个学弟在QQ上进一步做了交流，对于这个任务的界定清楚了一些。首先，他们将任务定为：4、6级考试的自动作文评分系统。有了明确的任务，就可以讨论一些具体的方法，这方面我也不懂，但是有一点基本达成了共识：自动作文评分可以纳入到文本分类方法的范畴中，所以学弟应该关注一下文本分类的方法学习；如果采用文本分类的方法做这套自动作文评分系统，首先要收集一套已经评过分的4、6级作文素材。至此，我能提供的建议就仅限于此了，如果哪位读者对这方面比较在行，不妨给这位学弟提点建议？这里先谢过了！

　　关于自动作文评分，陈潇潇和葛诗利于2008年9月发表在《解放军外国语学院学报》的《自动作文评分研究综述》对于想初步了解自动作文评分的读者来说是一个不错的阅读素材，这篇文章对国外成熟的6大自动作文评分系统进行了不同程度的描述，而纵观这这些系统，无不与自然语言处理的相关技术紧密相连，以下是相关系统的一些简介：
　　1、Project Essay Grade ( PEG)
　　PEG是Ellis Page于1966年应美国大学委员会的请求而研发的, 其目的就是为了使大规模作文评分更加实际而高效。PEG完全依靠对文章的浅层语言学特征的分析对作文进行评分, 根本没有涉及内容。它使用代理量度标准(proxy measures) 来衡量作文的内在质量以模拟人对作文的评分。作文评分本应该直接针对作文的内在质量进行评判。但内在质量, 如写作的流畅性、句子结构的复杂度、文章措辞的情况等难以用计算机直接测量。于是PEG采取了间接测量写作构念分项指标的方法, 即所谓的代理量度标准。比如: 作文长度代表了写作的流畅性; 介词、关系代词等表明了句子结构的复杂度; 词长的变化表明了文章措辞的情况(因为非常用词一般都较长)。
　　PEG由于其对语义方面的忽视和更多地注重表面结构而遭受指责。由于对作文内容相关方面的忽视, 该系统不能够给出对学生有指导意义的反馈。另外, 该系统最大的问题, 就是对写作技巧的间接测量很容易被写作者利用, 如写出文理不通的长文以获取流畅性方面的高分, 欺骗计算机。
　　2、Intelligent Essay Assessor ( IEA)
　　IEA是上世纪90 年代末由Pearson Knowledge Analysis Technology 公司在潜在语义分析( latent semantic analysis) 技术的基础上开发的。潜在语义分析本来是一个用于文本索引和信息提取的复杂统计技术, 其定义为“一个单词用法的统计模型, 该模型允许对片断文本包含的信息之间的语义相似性进行比较”。其核心思想就是一个段落的意义, 在很大程度上取决于该段落所包含的词汇的意义, 即使只改动一个单词, 也可能使这个段落的意义发生改变。该思想可以总结为“词汇1的意义+词汇2的意义+ ⋯⋯词汇n的意义=段落的意义”。另一方面, 两段由不同词汇构成的段落, 其意义也可能非常相似。通过大量文本的数学计算可以发现, 当某些不同的单词以较高的频率出现于相同或相似的语境时, 可以推算出这些词汇意义的相近。而由不相同但意义相近的单词构成的段落, 其意义也可能非常相似。
　　在自动作文评分中, 该技术能够将学生的作文按照它所包含的单词投射成为能够代表作文意义(内容) 的数学形式, 然后在概念相关度和相关内容的含量两个方面与已知写作质量的参考文本进行比较, 从而得出学生作文的评分。
　　3、Electronic Essay Rater (E-rater)
　　E-rater是由Educational Testing Service ( ETS)的Burstein 等人在上世纪90 年代末开发的。目前ETS 正利用该系统对GMAT中Analytical Writing Assessment (AWA ) 部分进行评分, 并于2005年开始应用于托福考试的作文评分。在E-rater 付诸应用之前, GMAT 的AWA由两名评卷员在6分的范围内做出整体评分,如果两名评卷员的评分差异超过1分, 就需要第三名评卷员来处理。E-rater从1999 年2 月应用于AWA的评分。试卷的最终得分由E-rater和一名评卷员决定。同先前由两名评卷员共同阅卷的情况类似, 如果E2rater跟评卷员的评分差异超过1分, 第二名评卷员就参与解决这个问题。据Burstein 讲,自从E-rater应用于GMAT的AWA 的评分, E-rater与评卷员的分歧率一直低于3% , 这并不高于两名评卷员的分歧, 因此完全可以用于各种标准化考试的作文评分。E-rater系统采用基于微软自然语言处理的工具包来分析文章, 包括词性标注器为文本中每一个单词赋予词性; 句法分析器分析文本中的句法结构; 篇章分析器分析文本的篇章结构。采用词汇相似性度量器, 以统计技术中的简单关键词分析法分析文本中的词汇使用。另外, 采用了基于语料库的方法建模。使用统计与自然语言处理技术来提取待评分文章的语言学特征, 然后对照人工评分的标准作文集进行评分。评分过程主要由5个独立模块来进行。3个用来识别作为评分标准的特征, 包括: 句法模块、篇章模块和主题分析模块。这3个模块分别用来提取作文的句法多样性、思想的组织和词汇的使用方面的67个文本特征的特征值。第4个模块, 即模型构建模块, 用来选择和加权对作文评分具有预测力的特征。即把前3 个模块提取的数据作为自变量,人工评分的分数作为因变量进行逐步线性回归, 在67个变量中进行筛选, 建立回归方程。第5个模块用来计算待评分文章的最后得分, 即提取作文显著特征的特征值, 代入回归方程计算得分。
　　4、IntelliMetricTM
　　IntelliMetricTM是由Vantage Learning开发的, 第一套基于人工智能(AI) 的作文评分系统。它能够模仿人工评卷, 在1到4或者1到6的分值范围内对作文的内容、形式、组织和写作习惯进行评分。它集中了人工智能、自然语言处理和统计技术的长处, 是一种能够内化专家级评卷员集体智慧的学习机。其核心技术是Vantage Learning的CogniSearchTM和Quantum ReasoningTM 。前者是专门为IntelliMetricTM开发, 用来理解自然语言以支持作文的评分, 如它能分析词性和句法关系, 这使得IntelliMetricTM能够依据英语标准书面语的主要特征来评判作文。二者结合使得IntelliMetricTM能够内化作文中与某些特征相关的每一个得分点, 并用于接下来的作文自动评分。
　　IntelliMetricTM需要采用专家级评卷员已经评好分数的作文集进行训练。在评分过程中, 系统采用了多个步骤。首先, 根据已评分数的训练集进行内化训练, 构建模型; 然后用较小的测试集检测模型的效度和概括度。两项都得到确认后, 便可用于待评分作文的评判了。一旦根据标准美式英语或者先前训练得到的标准, 某些作文被评估为不正常, 系统会自动做出标注。
　　IntelliMetricTM评估了作文中语义、句法、篇章3个层次的300多项特征。在性能方面据称能够跟专家级评卷员给出的分数一样准确, 与评卷员的一致率达到了97%至99%。另外, IntelliMetricTM能够评阅多种语言的作文, 如英语、西班牙语、以色列语和印度尼西亚语。对荷兰语、法语、葡萄牙语、德语、意大利语、阿拉伯语以及日语等多种语言文本的评价现在也能够做到了。
　　5、Bayesian Essay Test Scoring sYstem(BETSY)
　　BETSY是由美国教育部投资, 由马里兰大学College Park的LawrenceM. Rudner开发的, 以概率论为指导, 基于训练语料对文本进行分类的程序(Valenti, et al. , 2003) 。该系统使用了包括内容与形式等多方面的一个大型特征集, 根据4点类型尺度(优、良、合格、不合格) 把一篇作文划分到一个最合适的集合中去。(Rudner & L iang, 2002) 文本分类所采用的底层模型是多元伯努利模型(MBM) 和伯努利模型(BM) , 两者都属于朴素贝叶斯模型,因为它们都以条件独立假设为前提。BETSY的计算量非常大, 但据其开发者声称, 由于该系统使用的方法能够整合PEG、LSA 和E2rater的最佳特征,“再加上本身所特有的长处, 使它具有以下特点:能够用于短文评测, 易于使用, 适用的内容范围宽广, 能够产生诊断性结果, 能够调节以用于多种技能的分类, 以及容易使非统计人员明白其中的道理”。值得一提的是,BETSY是作文自动评分领域唯一可免费下载使用的软件。
　　6、Larkey的系统
　　最早把文本统计分类方法用于作文自动评分的Larkey 以及Croft 在这个领域也做出了很大贡献。在他们的研究中, 采用了贝叶斯独立分类方法和最近邻分类方法( k-nearest-neighbor, 简称kNN) , 并提取11个文本复杂性特征用于线性的回归计算。在他们的实验中, 单独的贝叶斯独立分类方法有着稳定而良好的表现。然而, 加入文本复杂性特征和最近邻分类方法后, 系统性能并没有得到显著的改善。在这种评分方法中, 作文长度的重要性不像其他自动评分系统那样明显。