评价机器学习系统是的指标同样适用于图像或者视频描述领域。BELU、Meteor、ROUGE、CIDEr和SPICE。前两个是评测机器翻译的,第三个是评测自动摘要的,最后两个应该是为caption定制的。
1、BLEU
Bilingual Evaluation Understudy用于分析候选译文(待评价的译文)和参考译文中N元组共同出现的程度,IBM于2002年提出的。
对于一个待翻译的句子,候选译文用Ci表示,而对应的一组参考译文表示为Si={Si1,Si2,Si3,...,Sim}€S
N-gram表示N个单词长度的词组集合,另Wk表示第k组可能的n-grams
hk(Ci)表示Wk在候选译文Ci中出现的次数,hk(Sij)表示Wk在参考译文Sij中出现的次数
BLEU则根据计算对应语句中的语料库层面上的重合精度
其中k表示可能存在的n-gram序号
容易看出CPn(C,S)是一个精确度度量,在语句较短时表现更好,并不能评价翻译的完整性,所以我们引入一个惩罚因子BP(Brevity Penalty):
其中Ic表示候选译文Ci的长度,Is表示参考译文Sij的有效长度(当存在多个参考译文时,选取和Ic最接近的长度)
本质上,BLEU是一个n-gram精确度的加权几何平均,按照下式计算:
其中,N可取1,2,3,4,而Wh一般对所有n取常值,即1/n
BLEU在语料库层级上具有很好匹配的语句上表现很好,但随着n的增加,在句子层级上的匹配越来越差。
BLEU的优点是它考虑的粒度是 n-gram 而不是词,考虑了更长的匹配信息;BLEU的缺点是不管什么样的 n-gram 被匹配上了,都会被同等对待。比如说动词匹配上的重要性从直觉上讲应该是大于冠词的。
例子:
待评价译文:1:It is a guide to action which ensures that the military always obeys the commands of the party
2: It is to insure the troops forever hearing the activity guidebook that party direct
参考译文1:It is a guide to action that ensures that the military will forever heed Party commands
2: It is the guidingprinciple which guarantees the military forces always being under the command of the Party
3: It is the practical guide for the army always to heed the directions of the party
当n=1时,待评价译文1的 修正过的精确度值是17/18,待评价译文2的 修正过的精确度值是8/14
当n=2时,待评价译文1的 修正过的精确度值是10/17,待评价译文2的 修正过的精确度值是1/13
2、METEOR
METEOR标准于2004年由lavir发现在评价指标中召回率的意义后提出的
他们的研究表明,召回率基础上的标准相比于那些单纯基于精度的标准(如BLEU),其结果和人工判断的结果有较高相关性
METEOR测度基于单精度的加权调和平均数和单字召回率,其目的是解决一些BLEU标准中固有的缺陷
METEOR也包括其他指标没有发现一些其他功能,如同义词匹配等
计算METEOR需要预先给定一组校准(alignment)m,而这一校准基于WordNet的同义词库,通过最小化对应语句中连续有序的块(chunks)chch来得出
则METEOR计算为对应最佳候选译文和参考译文之间的准确率和召回率的调和平均:
其中α、γ和θ均为用于评价的默认参数
因此,METEOR的最终评价基于块(chunk)的分解匹配和表征分解匹配质量的一个调和平均,并包含一个惩罚系数P
和BLEU不同,METEOR同时考虑了基于整个语料库上的准确率和召回率,而最终得出测度
3、CIDEr(Consensus-based Image Description Evaluation)
这个指标将每个句子都看作“文档”,将其表示成 tf-idf 向量的形式,然后计算参考caption与模型生成的caption的余弦相似度,作为打分。换句话讲,就是向量空间模型。考虑一张图片是Ii€I(I:全部测试集图片的集合)
对于一个n-gram Wk和参考caption 8ij,tf-idf计算方式是
式中的 Ω是全部 n-gram 构成的词表。可以看出 idf 的分母部分代表的是Wk出现于参考caption的图片个数。
那么,CIDEr的值可以用余弦相似度的平均值来计算:
类似于BLEU的做法:
这个指标的motivation之一是刚才提到的BLEU的一个缺点,就是对所有匹配上的词都同等对待,而实际上有些词应该更加重要。